タグ wyukawa’s blog
人気順 5 users 10 users 50 users 500 users 1000 usersデータ民主化の負の側面 - wyukawa’s blog
データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの... 続きを読む
バッチ処理、ジョブ管理について書いてみる - wyukawa’s blog
Azkaban, 技術僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。... 続きを読む
RDBMSのコネクションプーリングとかその辺の話 - wyukawa’s blog
技術 データベース技術の羅針盤 from Yoshinori Matsunobuこれは素晴らしい資料で後半のキャリアの話とか面白いんだけど、今回書くのはp6,p8に書かれていた下記の話です。PosgreSQLは接続がプロセスベースなのでLL言語との相性がよくないPgpool(これはプロキシサーバー的に使うらしい)などのコネクションプールと併用することが多いMySQLは接続がスレッドベースなのでコネ... 続きを読む