タグ wyukawa’s blog
人気順 5 users 10 users 100 users 500 users 1000 usersデータ民主化の負の側面 - wyukawa’s blog
データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの... 続きを読む
バッチ処理、ジョブ管理について書いてみる - wyukawa’s blog
Azkaban, 技術僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。... 続きを読む
2種類のログ解析基盤 - wyukawa’s blog
Hadoop, Presto, yanagishima僕は仕事では2種類のログ解析基盤を見ています。1つ目はどちらかというとエンジニアよりの解析基盤でサービス側のエンジニアがShib, ShibUIを通して好きにクエリを投げることができます。ただしtableをcreateしたりdropしたりinsertしたりはできません。selectのみです。データの更新作業は別途cronのhive batchで... 続きを読む
ETLフレームワークとジョブ管理 - wyukawa’s blog
AzkabanTreasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。Managing the Data Pipeline with Git + Luigi | The Treasure Data Blogリンク先の記事を僕なりに要約すると、データやそれを加工するスクリプトがちらばって管理が辛くなり、エラー... 続きを読む
rebuildfm 53のRubyのGCとスレッドの話が面白かった - wyukawa’s blog
RubyRebuild: 53: Less Code Is Better Code (Matz)rebuildfm 53のRubyのGCとスレッドの話が面白かったので書いてみる。RubyのGCというとクックパッドがユーザのリクエスト中にGCを止めるっていう話があったぐらいなので改善が望まれる分野なんだと思います。 例えば GC を止める・Ruby ウェブアプリケーションの高速化 - 2nd lif... 続きを読む
LL言語でのhot deployとJavaでのhot deploy - wyukawa’s blog
JavaJVM Operation Casual Talksで出てた話としてJavaでhot deployってどうしてんの?ってのがありました。hot deployっていうのはアプリケーションコードを変更してもAPサーバーを再起動せずに反映する技術です。この辺別に僕は全然知らないし答えを持っているわけではないですが、まあちょっと興味があったのでLL言語でのhot deployとJavaでhot d... 続きを読む
RDBMSのコネクションプーリングとかその辺の話 - wyukawa’s blog
技術 データベース技術の羅針盤 from Yoshinori Matsunobuこれは素晴らしい資料で後半のキャリアの話とか面白いんだけど、今回書くのはp6,p8に書かれていた下記の話です。PosgreSQLは接続がプロセスベースなのでLL言語との相性がよくないPgpool(これはプロキシサーバー的に使うらしい)などのコネクションプールと併用することが多いMySQLは接続がスレッドベースなのでコネ... 続きを読む
chefとかvagrantとかfabricとか - wyukawa’s blog
chef, vagrant, fabricchefを使いそうなのでその辺素振りしてみる。chefの前にまずvagrantとvirtualboxをそれぞれダウンロードしてインストールBoxファイルの追加 $ vagrant box add centos63 https://dl.dropbox.com/u/7225008/Vagrant/CentOS-6.3-x86_64-minimal.box $... 続きを読む