タグ「Hadoop」 - はてブログ

タグ Hadoop

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 47件)

Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ－ Publickey

2019/10/15 117 users ビルドツール Publickey Kubernetes 説明

Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ BazelはKubernetesやHadoopのように、もともとGoogle社内で使われていたソフトウェアがオープンソースとなったものです。そのため、BazelのWebサイトには次のような説明が記されています。 When you build software with Bazel,... 続きを読む

DMM.comのビッグデータ基盤を支える技術 // Speaker Deck

2017/08/25 111 users Speaker Deck DMM.com ビッグデータ基盤

TECH PLAY Conference 2017 の発表資料となりますビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ鈴木翔太 / 吉田龍馬 === 弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用... 続きを読む

Oss貢献超入門

2017/08/05 401 users React Scala OSS リポジトリアドテクエンジニア

Oss貢献超入門 1. OSS貢献超入門 builderscon2017 2017/8/5 shigemk2 2. 自己紹介 ● shigemk2 ● アドテクエンジニア ● ScalaとかHadoopとかReactとか ● http://www.shigemk2.com/ 3. 超結論好きなリポジトリをウォッチしよう 4. 今日の流れ 1. 対象者 2. OSSとは 3. 貢献できない理由 ... 続きを読む

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

2017/07/09 832 users DISCLAIMER 言説迷宮主張実態

Hadoop の時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、 Hadoop とその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜ Hadoop の時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私は Hadoop を中心としたデータ基盤を取り扱... 続きを読む

Hadoopは失敗した、という分析

2017/03/28 342 users 分析

Use Evernote to create, collect, and share everything that matters in your personal and professional life. Get started now. 続きを読む

非英語ネイティブにとってのOSSのメンテナンスコスト - once upon a time,

2017/01/01 207 users OSS ディストリビューター Cloudera code 会社

2017 - 01 - 01 非英語ネイティブにとってのOSSのメンテナンスコスト community program disclaimer: この記事を書いている人はClouderaという Hadoop /Sparkのディストリビューターの会社にいます。 codelunch.fmの20回目を聞いていろいろ思うところがあったのでつらつら買いてみます。 codelunch.fm この回のcode... 続きを読む

新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮

2016/11/24 404 users 迷宮技術文書科学ニューラルネットワーク非科学

2016 - 11 - 24 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した、というので早速使ってみました。翻訳対象は HadoopのFair Schedulerに関するドキュメントです。 Fair Schedulerは、Capacity Schedulerと並ぶ Hadoop の2... 続きを読む

Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）－ Publickey

2015/08/04 121 users レイテンシ Publickey スループット Spark 前編

Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアな... 続きを読む

運用を楽にするためのアプリケーションコードを書くということ - sonots:blog

2015/05/18 584 users アプリケーションコード sonots デプロイフェーズ部署

4/1付けで Hadoop やらなんやらを運用している部署に異動してから、ひたすら新しいツールの実装をしていた。この度、そのツールの最初の機能要件は実装し終わって最初のデプロイをするフェーズに入ったので、そのツールを運用に載せるためのアプリケーションコードを書いていた。運用に載せるためのアプリケーションコードは、機能要件とは別の所にある非機能要件であって運用の肌感がわかっていないと要件を出すのは... 続きを読む

本の虫: ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について

2015/04/28 334 users 惨状惨劇スクラッチ筆者セキュリティ

2015-04-28 ビッグデータツールチェインのセキュリティはビッグリスク、あるいは、誰もHadoopをスクラッチからビルドする方法を知らない件について The sad state of sysadmin in the age of containers コンテナー時代のシステム管理者の惨状システム管理は惨劇に見舞われている。現状は悲惨だ。筆者は昔気質のシステム管理者に不満はない。システムの... 続きを読む

データベース研究者から見た"ビッグデータ"の意義「HadoopもNoSQLも邪道だけど…」 - ログミー

2015/04/25 138 users 准教授一堂エキスパートスピーカー NoSQL

情報処理における全国のエキスパートが一堂に会したリクルート主催の「春の情報処理祭」。人々が日常的に大量のデータを生成・消費するに伴い、「ビッグデータ」の重要性が高まっていると語る、大阪大学准教授の原隆浩氏。「ビッグデータを制する者が世界を制する」とまで言われ、その研究に注目が集まるデータベース分野の歴史と可能性について解説します。（春の情報処理祭in京都より）【スピーカー】大阪大学　准教授　原... 続きを読む

フリーのVM環境を使って、ビッグデータ分析の学習環境をすばやく構築する（1/3）：CodeZine

2015/04/24 263 users CodeZine RDBMS VM環境インポート起動

この連載では、フリーのVM環境「Cloudera Quick Start VM」を使って、ビッグデータ分析に必要な各種技術（データの取込み、非構造化データの分析、機械学習、全文検索など) を学習します。この連載を読むことで、ビッグデータ分析基盤に必要な基礎技術を学ぶことができます。第1回では、VM環境のダウンロードと起動、RDBMSからHadoopへのデータのインポート、Hadoop上でのテーブル... 続きを読む

Treasure Dataを支える(中の人に必要な)技術 - myui's memo

2015/04/15 252 users myui's memo Treasure Data 技術

2015-04-15 Treasure Dataを支える(中の人に必要な)技術 Treasure Data（以下、TD）に入社して早2週間が経ちました。入社してから知ったのですが、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*1でお世話になったの... 続きを読む

第1回　なぜ，Hadoopはどのように動くのか，を学ぶのか：Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装｜gihyo.jp … 技術評論社

2015/04/01 268 users 並列実装 Hadoop処理系 gihyo.jp 内部

はじめにビッグデータ解析のためのシステム基盤として，Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが，当該データ処理系をすでに利用している，もしくは利用の検討をしている読者の方々の中には，たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが，その内部をあまり理解で... 続きを読む

HDFSのリースリカバリ、ブロックリカバリ、およびパイプラインリカバリ動作詳解 (その1) | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan

2015/03/02 367 users Cloudera HDFS リーディングカンパニー原文動作

投稿日: 2015/03/03 本記事は、Cloudera のソフトウェア・エンジニア Yongjun Zhang による記事を翻訳したものです。原文についてはこちらをご覧ください。 HDFSの重要な設計要件のひとつとして、連続的かつ正確な動作の保証が挙げられる。ネットワークやノード障害時に、HDFSへの書き込みの正確さを保証することは複雑な問題のひとつと言えるだろう。これは、リースリカバリ、ブロ... 続きを読む

オープンデータプラットフォームアライアンス | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan

2015/02/23 367 users リーディングカンパニー Cloudera Japan

投稿：Mike Olson、2015年2月17日本記事は、弊社Chief Strategy Officerである Mike Olson が公開したVision Blogを翻訳したものです。原文についてはこちらをご覧ください。今朝、PivotalとHortonworksがオープンデータプラットフォームイニシャティブを設立することを発表しました。Clouderaはこれに参加することはありませんが、... 続きを読む

Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」－ Publickey

2014/06/26 400 users Publickey MapReduce フレームワーク発表

Google、大規模データをリアルタイムに分析できるクラウドサービス「Google Cloud Dataflow」を発表。「1年前からMapReduceは使っていない」大規模分散処理のフレームワークとしてGoogleが開発し、Hadoopに採用されて広く使われているMapReduce。しかしGoogleはもうMapReduceを使わず、より優れた処理系の「Google Cloud Dataflo... 続きを読む

DCセンターの原価計算について〜「クラウド」の別側面として - 急がば回れ、選ぶなら近道

2014/06/22 246 users 近道原価計算クラウド別側面 Spark

要するに「データセンターの原価計算」です。いろいろこのあたりに関わっています。複雑な計算ロジックと大量のデータを扱う必要があるので、大規模並列計算の適用が必須になり、結果として当方の出番になった、という状態。尚、実行基盤にHadoop（MapR）を利用しています。（一応予定ではSparkに移行するつもりで、開発も始まっています。）さて、いろいろやっていて思うところがあるので、現時点での考え方をま... 続きを読む

hadoop - Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

2014/05/19 647 users SQL Fluentd meetup 虎の子 Qiita デモ

とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだっ... 続きを読む

Apache Sparkを分かりやすく解説 | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan

2014/03/06 367 users Cloudera Databricks Spark 原文解説

投稿日: 2014/03/07 本記事は、弊社パートナーであるDatabricks様による寄稿記事を翻訳したものです。原文についてはこちらをご覧ください。 Apache Spark (incubating)をサポートするDatabricksに、以下のゲスト記事を寄稿していただきました。ClouderaとDatabricksはCDH内でSparkを提供しサポートすると最近発表しました。今後、Spar... 続きを読む

Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると－ Publickey

2013/11/07 394 users Presto Hive Facebook Publickey

Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向... 続きを読む

ヤフーが日々蓄積するビッグデータの塊、3500台のHadoopで処理し地道に活用 - INTERNET Watch

2013/09/17 101 users ヤフー INTERNET Watch ビッグデータ活用日々

インタビューヤフーが日々蓄積するビッグデータの塊、3500台のHadoopで処理し地道に活用（2013/9/17 12:00）「Yahoo! JAPAN」でユーザーが検索したキーワードなど、日々蓄積されるビッグデータ。ヤフー株式会社では、200名以上の“データスペシャリスト”がそれらビッグデータの塊に日々向かい合い、事業に活用している。最近では、検索ビッグデータを使って国政選挙やインフルエン... 続きを読む

ASCII.jp：“シリコンバレーの技術者集団”ではトレジャーデータを見誤る (1/5)

2013/07/03 273 users シリコンバレーＣＴＯトレジャーデータ tech 熱海

シリコンバレーの日本人ベンチャーとして注目度の高いトレジャーデータのCTOである太田一樹氏とのインタビューが実現した。CEO芳川裕誠氏の家のベランダと熱海の温泉で始まった会社の起業物語やサービスのポイントなどを聞いた1時間のインタビューをほぼ加工なしで掲載する。 Hadoopのポテンシャルを感じ始めたときに声をかけてもらった TECH.ASCII.jp 大谷（以下、TECH 大谷）：太田さんという... 続きを読む

Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！｜ Developers.IO

2013/03/18 111 users レコメンデーションアプリケーシクラスタ New 障害

Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ NEW: 2013年03月18日都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーシ... 続きを読む

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開－ Publickey

2012/11/11 102 users Facebook Publickey Hive クエリ公開

Facebook、Hadoopのスケーラビリティ問題を解決する、独自の「Hadoop Corona」をオープンソースで公開 Facebookでは、24時間ごとに0.5ペタバイトのデータが生成され、それらを分析するために毎日6万回以上ものHiveのクエリが実行されているそうです。こうした大規模処理を行うプラットフォームとして使われているのがHadoop。しかしFacebookはHadoop Map... 続きを読む