タグ Hadoop上
人気順 5 users 10 users 100 users 500 users 1000 usersフリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する (1/3):CodeZine
この連載では、フリーのVM環境「Cloudera Quick Start VM」を使って、ビッグデータ分析に必要な各種技術(データの取込み、非構造化データの分析、機械学習、全文検索など) を学習します。この連載を読むことで、ビッグデータ分析基盤に必要な基礎技術を学ぶことができます。第1回では、VM環境のダウンロードと起動、RDBMSからHadoopへのデータのインポート、Hadoop上でのテーブル... 続きを読む
[速報]「Greenplum Database」がオープンソースに。DWH向けMPPデータベース。Pivotalが発表 - Publickey
Pivotalは2月17日(日本時間2月18日午前4時)にオンラインイベントを開催。同社が提供するビッグデータ関連の3つのソフトウェア「GemFire」「HAWQ」「Greenplum Database」をオープンソースにすると発表しました。 GemFireはインメモリデータベース、HAWQはHadoop上でSQLのクエリを実行できるソフトウェア。 もっとも注目されるのがGreenplum Dat... 続きを読む
SQL感覚でHiveQLを書くと痛い目にあう例 — still deeper
SQL感覚でHiveQLを書くと痛い目にあう例 tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語... 続きを読む
分散並列環境における機械学習 : Preferred Research
もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。発表内容は三部構成になっています。最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの... 続きを読む