タグ Hadoop
新着順 10 users 50 users 100 users 500 users 1000 usersNTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_... 続きを読む
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoop の時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、 Hadoop とその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜ Hadoop の時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私は Hadoop を中心としたデータ基盤を取り扱... 続きを読む
いまさら聞けないHadoopとテキストマイニング入門 (1/3) - @IT
ヤフー株式会社 吉田一星 2011/6/21 Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Had... 続きを読む
hadoop - Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだっ... 続きを読む
運用を楽にするためのアプリケーションコードを書くということ - sonots:blog
4/1付けで Hadoop やらなんやらを運用している部署に異動してから、ひたすら新しいツールの実装をしていた。 この度、そのツールの最初の機能要件は実装し終わって最初のデプロイをするフェーズに入ったので、そのツールを運用に載せるためのアプリケーションコードを書いていた。運用に載せるためのアプリケーションコードは、機能要件とは別の所にある非機能要件であって運用の肌感がわかっていないと要件を出すのは... 続きを読む
Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo!Japanでの実際の使用例を交えながら書きたいと思います。 Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoop... 続きを読む
プログラミング言語やデータベースが選べる新世代PaaS「DotCloud」が正式サービス開始 - Publickey
DotCloudの最大の特徴は、PHPやPerl、Ruby、Java、Python、Node.jsなど複数の言語と、MySQL、PostgreSQL、Cassandra、MongoDB、CouchDB、Redisなど複数のデータベースやMemcached、RabbitMQ、Hadoopなどのさまざまなソフトウェアを開発者が自由に組み合わせてプラットフォームを構成することができ、それがクラウド上のP... 続きを読む
グーグル発「Hadoop」、日本企業も利用へ - 「情報爆発」を支えるテクノロジー:ITpro
Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムをオープンソース化したものだ。グーグルが開発した分散ファイルシステム「Google File System(GFS)」を模した「Hadoop Distributed File System(HD FS)」と、データ処理機構「MapReduce」を模した「Hadoop MapReduce」で構成する。 米国では米VISAや米JPモル... 続きを読む
クックパッドとHadoop « クックパッド開発者ブログ
はじめまして。今年の5月に入社した勝間@さがすチームです。 入社してからは、なかなか大変なことも多いですが、最近はお酒好きが集まって月曜から飲み合う 「勝間会」なるものも発足して、仕事面でも仕事以外の面でも密度の高い毎日を過ごしています! さて、僕は「さがす」チーム所属ということで、普段はレシピを「さがす」ユーザの満足度を上げるために、 クックパッドの検索まわりについて、いろいろな開発を行っていま... 続きを読む
新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮
2016 - 11 - 24 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した 新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した 、というので早速使ってみました。 翻訳対象は HadoopのFair Schedulerに関するドキュメント です。 Fair Schedulerは、Capacity Schedulerと並ぶ Hadoop の2... 続きを読む
Hadoopの解析資料
オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模... 続きを読む
Oss貢献超入門
Oss貢献超入門 1. OSS貢献超入門 builderscon2017 2017/8/5 shigemk2 2. 自己紹介 ● shigemk2 ● アドテクエンジニア ● ScalaとかHadoopとかReactとか ● http://www.shigemk2.com/ 3. 超結論 好きなリポジトリを ウォッチしよう 4. 今日の流れ 1. 対象者 2. OSSとは 3. 貢献できない理由 ... 続きを読む
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」 - Publickey
Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」 大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflo... 続きを読む
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると - Publickey
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向... 続きを読む
Hadoopを業務で使ってみた話 « クックパッド開発者ブログ
8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求... 続きを読む
HDFSのリースリカバリ、ブロックリカバリ、およびパイプラインリカバリ動作詳解 (その1) | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan
投稿日: 2015/03/03 本記事は、Cloudera のソフトウェア・エンジニア Yongjun Zhang による記事を翻訳したものです。原文についてはこちらをご覧ください。 HDFSの重要な設計要件のひとつとして、連続的かつ正確な動作の保証が挙げられる。ネットワークやノード障害時に、HDFSへの書き込みの正確さを保証することは複雑な問題のひとつと言えるだろう。これは、リースリカバリ、ブロ... 続きを読む
オープンデータプラットフォームアライアンス | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan
投稿:Mike Olson、2015年2月17日 本記事は、弊社Chief Strategy Officerである Mike Olson が公開したVision Blogを翻訳したものです。原文についてはこちらをご覧ください。 今朝、PivotalとHortonworksがオープンデータプラットフォームイニシャティブを設立することを発表しました。Clouderaはこれに参加することはありませんが、... 続きを読む
Apache Sparkを分かりやすく解説 | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan
投稿日: 2014/03/07 本記事は、弊社パートナーであるDatabricks様による寄稿記事を翻訳したものです。原文についてはこちらをご覧ください。 Apache Spark (incubating)をサポートするDatabricksに、以下のゲスト記事を寄稿していただきました。ClouderaとDatabricksはCDH内でSparkを提供しサポートすると最近発表しました。今後、Spar... 続きを読む
Hadoop World Report:優良企業はなぜHadoopに走るのか - ITmedia エンタープライズ
Hadoop World Report:優良企業はなぜHadoopに走るのか オープンソースの大規模分散データ処理システム「Hadoop」の人気がうなぎ登りだ。Yahoo!やAmazon、FacebookといったIT業界の巨人たちだけでなく、VISAやJP Morganといった有名企業までHadoopにコミットを示している。先日開催された「Hadoop World」には、そうした企業の熱気が満ちて... 続きを読む
Hadoopは失敗した、という分析
Use Evernote to create, collect, and share everything that matters in your personal and professional life. Get started now. 続きを読む
本の虫: ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について
2015-04-28 ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について The sad state of sysadmin in the age of containers コンテナー時代のシステム管理者の惨状 システム管理は惨劇に見舞われている。現状は悲惨だ。 筆者は昔気質のシステム管理者に不満はない。システムの... 続きを読む
MapReduceできる10個のアルゴリズム - iAnalysis 〜おとうさんの解析日記〜
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています... 続きを読む
グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作 - Publickey
「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。 グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ(いわゆる「Big Data」)の分析を、グーグルのクラウドを用いて行うことを可能にするAPIです。利... 続きを読む
ASCII.jp:“統計の基礎を無視している”Hadoop使いが考えるビッグデータ|百家争鳴!ビッグデータの価値を探る
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではな... 続きを読む
Hadoopを用いた大規模ログ解析
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 続きを読む