タグ MapReduce
人気順 5 users 10 users 100 users 500 users 1000 users分散システム処理モデルに関する動向について(MapReduceからBorgまで) - Yahoo! JAPAN Tech Blog
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduc... 続きを読む
Treasure Dataを支える(中の人に必要な)技術 - myui's memo
2015-04-15 Treasure Dataを支える(中の人に必要な)技術 Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから知ったのですが、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったの... 続きを読む
誰でも簡単に超高速なクエリができるBigQueryとは? - Build Insider
この2つの技術は、グーグル独自の技術というわけではない。しかし、ハードウェアから構築している、既存のグーグルのクラウド技術を活用し、パブリックなクラウドサービスとして提供可能なレベルの実装になっている点がGoogle BigQueryの強みとなっている。 BigQueryの特徴 他の類似サービスとの比較 巨大データを処理する技術としては、同じグーグルが使ってきたMapReduceというものがある。... 続きを読む
2015年のHadoopとビッグデータ活用:新春特別企画|gihyo.jp … 技術評論社
新春特別企画 2015年のHadoopとビッグデータ活用 2015年1月2日 濱野賢一朗 Hadoop, MapReduce, Apache Spark, Apache Tez, SQL, YARN この記事を読むのに必要な時間:およそ 2 分 あけましておめでとうございます。濱野 賢一朗です。 1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし,いざ1年を振り返ってみると... 続きを読む
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」 - Publickey
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflo... 続きを読む
ニュース - グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表:ITpro
米グーグルは2014年6月25日(米国時間)、ビッグデータ分析のクラウドサービスである「Google Cloud Dataflow」を発表した。グーグルの並列データ処理技術「MapReduce」の後継技術をベースにしたサービスで、バッチ処理だけでなくストリーム処理やリアルタイム処理を実行できることが特徴。25日から同社が米国サンフランシスコ市で開く開発者会議「Google I/O 2014」で発表... 続きを読む
IBM、新開発のPaaS「BlueMix」をベータ公開。Java、Node.js、Ruby実行環境とMySQL、MongoDB、MapReduce、モバイルBaaSにGitホスティング、Web開発環境など盛りだくさんの対応。IBM Pulse 2014 - Publickey
IBM、新開発のPaaS「BlueMix」をベータ公開。Java、Node.js、Ruby実行環境とMySQL、MongoDB、MapReduce、モバイルBaaSにGitホスティング、Web開発環境など盛りだくさんの対応。IBM Pulse 2014 米IBMのイベント「IBM Pulse 2014」が2月24日(現地時間)にラスベガスで開幕しました。SoftLayerを買収以来はじめて、同社の... 続きを読む
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると - Publickey
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向... 続きを読む
Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
2013-11-03 Hadoop/Storm の統合を実現する Twitter の SummingBird Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは? MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとた... 続きを読む
Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず... 続きを読む
HBaseを触ってみよう (1/5):CodeZine
HBaseは、Googleの基盤ソフトウェアである「Bigtable」のオープンソースクローンであり、大量データに対応した分散ストレージシステムです。HBaseを用いることで、スケーラブルで信頼性のあるデータベースを構築することができます。また、MapReduceを標準でサポートしており、HBaseに保存したデータに対してバッチ処理を行うことも可能です。しかし、SQLで扱えないことや、RDBとのス... 続きを読む
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 - Publickey
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)... 続きを読む
MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道
2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapRed... 続きを読む
GoogleのリアルタイムビッグデータツールDremelがオープンソース化してApache Drillへ
Googleには、今さら言うまでもなく、大量のデータがあり、それらを扱うためのツールを数多く作ってきた。中でもとくに有力な製品として、MapReduceやGoogleFSはオープンソースのApache Hadoopを生み、BigTableはApache HBaseを孵(かえ)した。 でも、それで終わりではない。同社はその後もビッグデータを処理するためのツールを作り続け、それらに関する論文やドキュメ... 続きを読む
ビッグデータの価格破壊? Googleが「処理量100GB/月まで無料」の解析サービスBigQueryを提供開始 : ITジャーナリスト星暁雄の"情報論"ノート
Googleが、データ解析サービスBigQueryを公開しました(Blog記事)。「ビッグデータの価格破壊」、とも言うべき内容になっています。 Google勤務のKazunori SatoさんがGoogle+に簡潔な解説をポストしてくれています。 ポスト1 BigQueryが一般公開されました!数100億件の全検索が数十秒で完了する超並列クエリサービスで、MapReduceと並びGoogleの根幹... 続きを読む
PHP と MySQL でカジュアルに MapReduce する
PHP と MySQL でカジュアルに MapReduce する — Presentation Transcript PHP と MySQL で カジュアルにMapReduce する @yuya_takeyama アジェンダ•MapReduce とは• 自作フレームワークMyMR の紹介 お断り (1)ビッグデータの話は ありません お断り (2) 業務ではまだやってません お断り (3) Had... 続きを読む
翻訳:MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのはてな
Ilya Katsovによる「MapReduce Patterns, Algorithms, and Use Cases」の翻訳http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapRed... 続きを読む
入門並列プログラミングとMapReduce - Yoshito Komatsu's posterous
この文書はGoogleの「Introduction to Parallel Programming and MapReduce」 を日本語に翻訳したものです。 原文のライセンスに従い、この文書は クリエイティブ・コモンズ 表示 2.5 一般 ライセンスの下に提供されています。 なお、誤字脱字、誤訳などありましたらぜひコメント欄などでご指摘ください。 対象読者と前提条件 このチュートリアルは並行プロ... 続きを読む
Hadoop MapReduce デザインパターン - 急がば回れ、選ぶなら近道
Amazon.co.jp: Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理: Jimmy Lin, Chris Dyer, 神林 飛志, 野村 直之, 玉川 竜司: 本 Hadoop MapReduce デザインパターン の監修という事をさせたもらったので その内容とかについてですね。 まず、元の本はこれです。 Amazon.co.jp: D... 続きを読む
MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。 その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、Map... 続きを読む
グーグル、フル機能のMapReduceをGoogle App Engineで提供へ - Publickey
グーグルは同社のクラウドサービスであるGoogle App Engineで、フル機能のMapReduce機能を提供することが同社のイベントGoogle I/O 2011で明らかにしました。 これまでGoogle App EngineではMapReduceを構成する「Map」「Shuffle」「Ruduce」の3つのうち、Mapperの機能の提供が行われてきました。 Google I/O 2011で... 続きを読む
Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSpo... 続きを読む
分散並列環境における機械学習 : Preferred Research
もうすぐ春ですね。花粉さえ飛ばなければ最高なのに。岡野原です。先日、Hadoop Conference Japan 2011で、”MapReduceによる大規模データを利用した機械学習”というタイトルで発表しました。発表内容は三部構成になっています。最初に、機械学習の基本と、それがMapReduceとどのような関係にあるかを紹介しました。その中でHadoop上で動く機械学習ライブラリMahoutの... 続きを読む
MapReduceによる大規模データを利用した機械学習
Loading…Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here.MapReduceによる大規模データを利用した機械学習 - Presentation Transcri... 続きを読む
グーグル発「Hadoop」、日本企業も利用へ - 「情報爆発」を支えるテクノロジー:ITpro
Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムをオープンソース化したものだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモル... 続きを読む