タグ MapReduce
人気順 10 users 50 users 100 users 500 users 1000 usersHadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない - ブログなんだよもん
2017 - 07 - 11 Hadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない 読み物 分散 id:shiumachi さんが書かれてる下記の記事がとても良かったです。 shiumachi.hatenablog.com 私自身もSparkを触る前は「 Hadoop == MapReduce 」と思ってましたが、どちらかというとYARNや HDFS が Hadoop フ... 続きを読む
第15回 計算機クラスタのためのリソース管理基盤 Hadoop YARN:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回は, MapReduceとその実装であるApache Hadoopの概要について説明しました。今回は, Apache Hadoopにおいて計算機クラスタのリソース管理を行うYARNについて解説します。 多種多様な処理系の登場 Hadoopの登場を1つの契機として, コモディティな計算機を複数台用いた計算機クラスタ上でデータ処理を行うことが広く普及しつつあります。たとえば, Hadoo... 続きを読む
第13回 Hadoopの設計と実装~並列データ処理系Hadoop MapReduce[1]:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 第一部では,Hadoopなどの並列データ処理系の基礎である並列データベース技術や分散システム技術を解説してきました。第二部では,実際の処理系により焦点を当て,それらの設計と実装を見ていきます。 第二部では,最初の4回を用いて,Apache Hadoopの並列データ処理系であるHadoop MapReduceを始めとし,当該処理系のリソース管理を行うYARNおよび,汎用的な並列データ処理系... 続きを読む
分散システム処理モデルに関する動向について(MapReduceからBorgまで) - Yahoo! JAPAN Tech Blog
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduc... 続きを読む
Treasure Dataを支える(中の人に必要な)技術 - myui's memo
2015-04-15 Treasure Dataを支える(中の人に必要な)技術 Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから知ったのですが、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったの... 続きを読む
誰でも簡単に超高速なクエリができるBigQueryとは? - Build Insider
この2つの技術は、グーグル独自の技術というわけではない。しかし、ハードウェアから構築している、既存のグーグルのクラウド技術を活用し、パブリックなクラウドサービスとして提供可能なレベルの実装になっている点がGoogle BigQueryの強みとなっている。 BigQueryの特徴 他の類似サービスとの比較 巨大データを処理する技術としては、同じグーグルが使ってきたMapReduceというものがある。... 続きを読む
2015年のHadoopとビッグデータ活用:新春特別企画|gihyo.jp … 技術評論社
新春特別企画 2015年のHadoopとビッグデータ活用 2015年1月2日 濱野賢一朗 Hadoop, MapReduce, Apache Spark, Apache Tez, SQL, YARN この記事を読むのに必要な時間:およそ 2 分 あけましておめでとうございます。濱野 賢一朗です。 1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし,いざ1年を振り返ってみると... 続きを読む
ニュース - Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表:ITpro
ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した(発表資料)。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。 同社は2013年までの6年間ほど、MapReduceにリ... 続きを読む
Big Data の調査:Google の DataFlow は、MapReduce の正当な継承者になり得るのか? | Agile Cat --- in the cloud
Big Data の調査:Google の DataFlow は、MapReduce の正当な継承者になり得るのか? Data Cloud/Big Data: Google Introduces DataFlow as Successor to MapReduce http://wp.me/pwo1E-7HE By Dick Weisinger – July 25, 2014 http://for... 続きを読む
ニュース - 「Hadoopはビッグデータの“OSカーネル”」、Hadoop Conference Japan開催:ITpro
オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」のユーザー会「Hadoop Conference Japan 2014」が2014年7月8日、東京・汐留で開催された。基調講演には、Hadoopのオリジナル開発者であるダグ・カッティング氏(写真1)などが登壇。カッティング氏は「バッチ処理用の『MapReduce』以外の処理方式に対応した現在のHadoopは、ビッグデータを処... 続きを読む
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」 - Publickey
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflo... 続きを読む
ニュース - グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表:ITpro
米グーグルは2014年6月25日(米国時間)、ビッグデータ分析のクラウドサービスである「Google Cloud Dataflow」を発表した。グーグルの並列データ処理技術「MapReduce」の後継技術をベースにしたサービスで、バッチ処理だけでなくストリーム処理やリアルタイム処理を実行できることが特徴。25日から同社が米国サンフランシスコ市で開く開発者会議「Google I/O 2014」で発表... 続きを読む
News & Trend - 次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム:ITpro
次世代Hadoopの有力なビッグデータ分析基盤として期待を集めているフレームワークがある。Apache Software Foundation(ASF)のオープンソースソフト(OSS)プロジェクトである「Spark」だ。インメモリー処理が特徴で、Hadoopにおける処理方式の一つである「MapReduce」を用いた場合と比べて最大で100倍以上、分析処理を高速化できる。 Sparkは当初、研究用途... 続きを読む
MapReduce代替の「Apache Spark 1.0」が登場 | SourceForge.JP Magazine
非営利団体のApache Software Foundation(ASF)は5月30日、大規模なデータ処理を行うための分析ソフトウェア「Apache Spark 1.0」のリリースを発表した。「Apache Hadoop」のMapReduceを置き換えることを目指すもので、多くの変更点が加えられている。 Apache Sparkは米カリフォルニア大学バークレー校のAMPLabで開発された分散コンピ... 続きを読む
IBM、新開発のPaaS「BlueMix」をベータ公開。Java、Node.js、Ruby実行環境とMySQL、MongoDB、MapReduce、モバイルBaaSにGitホスティング、Web開発環境など盛りだくさんの対応。IBM Pulse 2014 - Publickey
IBM、新開発のPaaS「BlueMix」をベータ公開。Java、Node.js、Ruby実行環境とMySQL、MongoDB、MapReduce、モバイルBaaSにGitホスティング、Web開発環境など盛りだくさんの対応。IBM Pulse 2014 米IBMのイベント「IBM Pulse 2014」が2月24日(現地時間)にラスベガスで開幕しました。SoftLayerを買収以来はじめて、同社の... 続きを読む
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると - Publickey
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向... 続きを読む
Hadoop/Storm の統合を実現する Twitter の SummingBird - Okapies' Archive
2013-11-03 Hadoop/Storm の統合を実現する Twitter の SummingBird Twitter が SummingBird を正式リリースして早二ヶ月。「日本語の紹介記事がほとんど出てないな」と気付いたので、調査がてらまとめてみました。 SummingBird とは? MapReduce なプログラムを書くための Scala/Java ライブラリ。最大の特徴は、ひとた... 続きを読む
Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず... 続きを読む
MapReduceのオープンソース実装を特許訴訟の対象にしないとGoogleが公式に誓約 | TechCrunch Japan
Googleが今日(米国時間3/28)、同社のMapReduceプログラミングモデルのオープンソースバージョンを実装したユーザやディストリビュータやデベロッパを、それらの実装が本質的にはGoogleのパテントを侵害しているものであるにもかかわらず、訴訟はしないと公式に誓約した。たとえばApacheのHadoopはおそらく、Googleがこの技術に関して保有している10件のパテントを侵害している。同... 続きを読む
Google、オープンなインターネットを目指す特許非係争「OPN」を宣言 - ITmedia ニュース
Googleが、防衛目的以外ではオープンソースソフトウェアの関係者を特許侵害で提訴しないという宣言「Open Patent Non-Assertion(OPN) Pledge」を発表した。まずはMapReduceの特許10件を対象とする。 米Googleは3月27日(現地時間)、「Open Patent Non-Assertion(OPN) Pledge」を発表した。同社の一部の特許に関し、オープ... 続きを読む
HBaseを触ってみよう (1/5):CodeZine
HBaseは、Googleの基盤ソフトウェアである「Bigtable」のオープンソースクローンであり、大量データに対応した分散ストレージシステムです。HBaseを用いることで、スケーラブルで信頼性のあるデータベースを構築することができます。また、MapReduceを標準でサポートしており、HBaseに保存したデータに対してバッチ処理を行うことも可能です。しかし、SQLで扱えないことや、RDBとのス... 続きを読む
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 - Publickey
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)... 続きを読む
MapReduceは今後どうなるのか? - 急がば回れ、選ぶなら近道
2012年の現在、割と悩んでいるのでメモっておく。 年度末ぐらいに再調査の予定。・・なので暫定ですよ。 まず前提として、現行のHadoopの実行フレームワークであるMapReduceは、実行効率は決して良くはないです。この辺が割と辛い。 とはいえ、大規模並列処理を一般的に行うという観点での品質や取り回しを考えた場合、”結果として”非常にバランスがとれており、普及している。その上で、このMapRed... 続きを読む
GoogleのリアルタイムビッグデータツールDremelがオープンソース化してApache Drillへ
Googleには、今さら言うまでもなく、大量のデータがあり、それらを扱うためのツールを数多く作ってきた。中でもとくに有力な製品として、MapReduceやGoogleFSはオープンソースのApache Hadoopを生み、BigTableはApache HBaseを孵(かえ)した。 でも、それで終わりではない。同社はその後もビッグデータを処理するためのツールを作り続け、それらに関する論文やドキュメ... 続きを読む
ビッグデータの価格破壊? Googleが「処理量100GB/月まで無料」の解析サービスBigQueryを提供開始 : ITジャーナリスト星暁雄の"情報論"ノート
Googleが、データ解析サービスBigQueryを公開しました(Blog記事)。「ビッグデータの価格破壊」、とも言うべき内容になっています。 Google勤務のKazunori SatoさんがGoogle+に簡潔な解説をポストしてくれています。 ポスト1 BigQueryが一般公開されました!数100億件の全検索が数十秒で完了する超並列クエリサービスで、MapReduceと並びGoogleの根幹... 続きを読む