タグ still deeper
人気順 5 users 10 users 100 users 500 users 1000 usersSQL感覚でHiveQLを書くと痛い目にあう例 — still deeper
SQL感覚でHiveQLを書くと痛い目にあう例 tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語... 続きを読む
fluentd自身のログにまつわるノウハウ — still deeper
fluentd自身のログにまつわるノウハウ fluentdのログ 流行に敏いみなさまは既にfluentdのクラスタを組まれているかと思います [1] が、fluentd自体のログはどうしてますでしょうか? サーバーに直接入って確認している?せっかくログアグリゲーターを組んでいるのだから、fluentd自体のログもfluentdで管理しませんか。 fluentdでは以下の様な match を定義して... 続きを読む
データ解析基盤を構築する前に考慮すべきポイント - still deeper
概要 ここしばらく某社でデータの解析基盤を構築する仕事に携わっています。一からの構築になるので打てる手が多く楽しい一方で、適切な判断を下すのは難しいと実感しています。 解析基盤というのはもちろん解析を行うためのものですので、どう解析を行うかによってどういう基盤を構築していけばよいかが決まります。 ところで、データ(構造や収めているDBなども含めて)というのは寿命の長いもので、初期の設計を間違えてし... 続きを読む