タグ wyukawa’s blog
人気順 10 users 50 users 100 users 500 users 1000 usersデータ民主化の負の側面 - wyukawa’s blog
データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの... 続きを読む
fluent-plugin-uri_decoderをpatchしてCPU使用率を下げた話 - wyukawa’s blog
td-agentのprofiling - wyukawa’s blog に書いたようにfluent-plugin-uri_decoderが重いということまではわかりました。 じゃあどうすっかという話なのですが、内部で議論がありRuby 2.4 + CGI.unescape + fluentd filterでいけばいいんじゃね?ということになりやってみました。 sonots先生も言ってるし背中を押さ... 続きを読む
Presto雑感 - wyukawa’s blog
Presto約1年間Prestoを運用していて気づいたことを書いてみようと思う。Prestoが素晴らしいOSSプロダクトであることは間違いなくて、Hiveを使っている人はインストールして損は無いと思う。メリットは下記の通りHiveに比べるとオンメモリで処理するので高速でアドホッククエリに向いている安定している。ストレージを持たないアーキテクチャなのでアップデートが簡単開発が活発。最近は以前に比べる... 続きを読む
プランナーよりのログ解析基盤のその後 - wyukawa’s blog
Hadoop, Presto, yanagishima以前2種類のログ解析基盤 - wyukawa’s blogで書いたログ解析基盤のうち2つ目のプランナーよりのシステムが現在どうなっているかを書いてみたいと思います。 ちなみに1つ目のエンジニアよりのシステムの方も更新はあって、Fluentd+Norikra+Elasticsearch+Kibanaによるリアルタイムモニタリングを始めたり、メルカ... 続きを読む
バッチ処理、ジョブ管理について書いてみる - wyukawa’s blog
Azkaban, 技術僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。... 続きを読む
2種類のログ解析基盤 - wyukawa’s blog
Hadoop, Presto, yanagishima僕は仕事では2種類のログ解析基盤を見ています。1つ目はどちらかというとエンジニアよりの解析基盤でサービス側のエンジニアがShib, ShibUIを通して好きにクエリを投げることができます。ただしtableをcreateしたりdropしたりinsertしたりはできません。selectのみです。データの更新作業は別途cronのhive batchで... 続きを読む
ETLフレームワークとジョブ管理 - wyukawa’s blog
AzkabanTreasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。Managing the Data Pipeline with Git + Luigi | The Treasure Data Blogリンク先の記事を僕なりに要約すると、データやそれを加工するスクリプトがちらばって管理が辛くなり、エラー... 続きを読む
CGI、マルチスレッド、シングルスレッド+イベント駆動そしてNode.js - wyukawa’s blog
技術, node.js僕はNode.jsとはそんなに関わりはなくてshibを使っているのが唯一の接点なんだけど、#10 Node.js | mozaic.fmを聞いてたら大変に面白かったので面白かった部分について書く。このpodcastは全部で2時間以上あって全部聞くのはなかなか辛いんだけどw 僕が面白いと思った部分はCGI -> マルチスレッド -> シングルスレッド+イベント駆動 という技術の... 続きを読む
rebuildfm 53のRubyのGCとスレッドの話が面白かった - wyukawa’s blog
RubyRebuild: 53: Less Code Is Better Code (Matz)rebuildfm 53のRubyのGCとスレッドの話が面白かったので書いてみる。RubyのGCというとクックパッドがユーザのリクエスト中にGCを止めるっていう話があったぐらいなので改善が望まれる分野なんだと思います。 例えば GC を止める・Ruby ウェブアプリケーションの高速化 - 2nd lif... 続きを読む
PrestoとかAnsibleとかその辺の話を軽く書いてみる - wyukawa’s blog
Presto, Ansible今日はPrestoとかAnsibleとかその辺の話を軽く書いてみようと思います。突っ込んだ話が出来るわけではないのであしからず。僕のところの環境ではPrestoを使っていて、PrestoはDataNodeやNodeManagerと同居してます。主なユースケースはアドホッククエリの実行です。とあるレポートを作りたいってなったときにデータの中身をチェックするのに使います。... 続きを読む
LL言語でのhot deployとJavaでのhot deploy - wyukawa’s blog
JavaJVM Operation Casual Talksで出てた話としてJavaでhot deployってどうしてんの?ってのがありました。hot deployっていうのはアプリケーションコードを変更してもAPサーバーを再起動せずに反映する技術です。この辺別に僕は全然知らないし答えを持っているわけではないですが、まあちょっと興味があったのでLL言語でのhot deployとJavaでhot d... 続きを読む
JVM Operation Casual Talksに参加して思ったことをつらつらと書く - wyukawa’s blog
JavaJVM Operation Casual Talks : ATND内容は参加者のブログエントリとtogetterが下記にありますのでそちらを見るとよいと思います。JVM Operation Casual Talksに参加しました #jvmcasual - @johtaniの日記 2nd「JVM Operation Casual Talks」発表資料のリンクをまとめてみる #jvmcasua... 続きを読む
Hiveで大きめの結果ファイルをエクスポートして相手に渡す話 - wyukawa’s blog
Hadoop, Hiveいろいろな部署でデータ分析するようになると「うちのデータとおまえんところのデータを結合して解析したいからデータをくれ、もしくはおれのデータをおたくのクラスタにインポートしてくれ」みたいな話が出るようになります、たぶん。1つのHadoopクラスタにデータが全てあってみんなでそこをいじるのであればこのような話は出ない訳ですが、世の中そう話は単純ではないです。インポート、エクスポ... 続きを読む
RDBMSのコネクションプーリングとかその辺の話 - wyukawa’s blog
技術 データベース技術の羅針盤 from Yoshinori Matsunobuこれは素晴らしい資料で後半のキャリアの話とか面白いんだけど、今回書くのはp6,p8に書かれていた下記の話です。PosgreSQLは接続がプロセスベースなのでLL言語との相性がよくないPgpool(これはプロキシサーバー的に使うらしい)などのコネクションプールと併用することが多いMySQLは接続がスレッドベースなのでコネ... 続きを読む
chefとかvagrantとかfabricとか - wyukawa’s blog
chef, vagrant, fabricchefを使いそうなのでその辺素振りしてみる。chefの前にまずvagrantとvirtualboxをそれぞれダウンロードしてインストールBoxファイルの追加 $ vagrant box add centos63 https://dl.dropbox.com/u/7225008/Vagrant/CentOS-6.3-x86_64-minimal.box $... 続きを読む
ログ解析における統計値の妥当性 - wyukawa’s blog
技術, 仕事, ログログ解析における統計値の妥当性をどうやって担保するのかは難しい問題だと思っていてぶっちゃけ最終的にはオレを信じろ、でも間違ってたらゴメンの世界な気がする。社内で閉じていて外に出ない統計値ならまあいいんだけど、世の中そんな統計値ばかりではない。例えばWebサービスを展開していてそこに広告を出稿してもらって売り上げをたてたいとする。広告を出す方としてはそのサイトにどれぐらいPV/U... 続きを読む
ログのフォーマットやparse処理についてつらつら書いてみる。 - wyukawa’s blog
ログある程度構造化された半構造化ログのパターンとしては以下があると個人的には思ってる。Apacheのcombined ログフォーマットや独自フォーマットなどである程度決まったフォーマットで保存されておりHuman Readableだけどログのparseに正規表現が必要なもの。アプリで扱っているモデルをそのままMessagePack, Protocol Buffersなどの形式でシリアライズしたもの... 続きを読む
HBaseのRowKeyの設計についてのメモ - wyukawa’s blog
HBaseFacebook Messageで使われたり、LINEのストレージで使われたり、と事例も多く出てきているHBase(Bは大文字。これ重要)ですが、個人的に少し興味も湧いてきたのでちょっと調べてます。HBaseはLog-Structured Merge-tree (LSM-tree)というアーキテクチャを使っており大量データの書き込みに最適化されています。なので大量の書き込みがあり読み込み... 続きを読む