タグ Hadoop上
人気順 5 users 50 users 100 users 500 users 1000 usersフリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する (1/3):CodeZine
この連載では、フリーのVM環境「Cloudera Quick Start VM」を使って、ビッグデータ分析に必要な各種技術(データの取込み、非構造化データの分析、機械学習、全文検索など) を学習します。この連載を読むことで、ビッグデータ分析基盤に必要な基礎技術を学ぶことができます。第1回では、VM環境のダウンロードと起動、RDBMSからHadoopへのデータのインポート、Hadoop上でのテーブル... 続きを読む
米Google、C/C++コードをHadoop上でネイティブに動かすフレームワーク「MapReduce for C(MR4C)」を公開 | SourceForge.JP Magazine
米GoogleがC/C++コードを「Apache Hadoop」上で動かすためのフレームワーク「MapReduce for C(MR4C)」をオープンソースで公開した。HadoopはJavaベースで実装されているが、このフレームワークを利用することで、C/C++で書かれたアプリケーションを直接Hadoop上で動かすことができる。 Apache HadoopはJavaで作成されたビックデータ分散処理... 続きを読む
[速報]「Greenplum Database」がオープンソースに。DWH向けMPPデータベース。Pivotalが発表 - Publickey
Pivotalは2月17日(日本時間2月18日午前4時)にオンラインイベントを開催。同社が提供するビッグデータ関連の3つのソフトウェア「GemFire」「HAWQ」「Greenplum Database」をオープンソースにすると発表しました。 GemFireはインメモリデータベース、HAWQはHadoop上でSQLのクエリを実行できるソフトウェア。 もっとも注目されるのがGreenplum Dat... 続きを読む
Hadoop上で動くスケーラブルなRandomForest分類器の開発 | 株式会社サイバーエージェント
業務経歴: 大手総合電機メーカー、バイオベンチャーを経て、2011年に株式会社サイバーエージェント入社。現在は「Ameba」サービスの分析を担当。 1.はじめに RandomForestという分類器はパラメータ設定の容易さや確率分布を仮定してなくも良い手軽さ等の理由により、様々な分野で多様されている。しかしながら、アナリストがよく利用する分析ソフトウェアR上でのRandomForest実装をそのま... 続きを読む
Cloudera Impalaのアーキテクチャ | Tech Blog
Cloudera Impalaは一から開発されたHadoop上の分散クエリエンジンです。英語の資料はそれなりに公開されていますが、日本語の情報が少ないのでまとめてみました一人アドベントカレンダー25日目、最終日です。 最終日はCloudera Impala(以下Impala)について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜH... 続きを読む
SQL感覚でHiveQLを書くと痛い目にあう例 — still deeper
SQL感覚でHiveQLを書くと痛い目にあう例 tl;dr explainとjob historyを読め 1 reducerは悪 data skewは悪 前書き みんな大好きSQLでHadoop上での処理を実行できるHiveにはみなさん普段からお世話になっていることでしょう。ちょっと調べ物でググる度に目に入る愛らいしいマスコットが、荒んだ心に清涼な風をはこんでくれます。 ですがHiveのクエリ言語... 続きを読む
田中克己の「ニッポンのIT企業」:OSSビジネスに挑むノーチラス・テクノロジーズ - ITmedia エンタープライズ
Hadoop上での基幹バッチ処理製品を提供するノーチラスの神林社長は「オープンソース・ソフトウェアを商売にする」と鼻息が荒い。 「企業向けOSS(オープンソース・ソフトウェア)のビジネスを成功させる」。2011年10月に誕生した中小IT企業、ノーチラス・テクノロジーズの神林飛志社長はこう意気込み、大規模な基幹バッチ処理を可能にするOSS「Asakusa Framework」の普及活動に力を注いでい... 続きを読む
分散並列環境における機械学習 : Preferred Research
もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。発表内容は三部構成になっています。最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの... 続きを読む