タグ Hadoop
人気順 10 users 50 users 100 users 500 users 1000 usersCDH (Hadoop) 入門 - MicroAd Developers Blog
はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介し... 続きを読む
Preferred Networks におけるHadoop | Preferred Networks Research & Development
Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理を... 続きを読む
Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ - Publickey
Google開発主導のビルドツール「Bazel」がバージョン1.0に到達、次期Angluarでも正式採用へ BazelはKubernetesやHadoopのように、もともとGoogle社内で使われていたソフトウェアがオープンソースとなったものです。そのため、BazelのWebサイトには次のような説明が記されています。 When you build software with Bazel,... 続きを読む
スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム / Hadoop / S…
スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム / Hadoop / Spark Conference Japan 2019 #hcj2019 1. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2019年03月14日 井島 洸二 / ヤフー株式会社 Hadoop / Spark Conference Japan 2... 続きを読む
競技プログラミングは業務の役に立つか? ~ OSSデベロッパー編 ~ - Yahoo! JAPAN Tech Blog
こんにちは。データプラットフォーム本部の鯵坂(@ajis_ka)です。 OSSデベロッパーとしてヤフーでの業務でApache Hadoop(以下、Hadoop)コミュニティで開発を続ける傍ら、昨年から趣味として競技プログラミングを始め、オンラインやオンサイトのコンテストに参加しています。 Hadoop Committerとしての仕事 Hadoopは、... 続きを読む
Apache Kafkaにも注目 ―Hadoop, Spark,分散処理フレームワークをめぐる2019年:新春特別企画|gihyo.jp … 技術評論社
あけましておめでとうございます。 今年も大規模データ向けの分散処理フレームワークの展望についてご紹介します。例年Apache HadoopとApache Sparkを中心にお届けしておりましたが,今年はこれらに加えて,2018年に活用が広がりが認知された分散メッセージシステムのApache Kafkaについても 同様に取り上げたいと思いま... 続きを読む
HadoopのSQLクエリーをFPGAで高速処理、日立が2019年に製品化 | 日経 xTECH(クロステック)
登録会員限定記事 現在はどなたでも閲覧可能です オープンソースソフトウエア(OSS)の分散処理ソフト「Hadoop」でのSQLクエリー処理をFPGAによって高速化する技術を日立製作所が2019年に製品化する。「Amazon Web Services(AWS)」のFPGAを搭載する仮想マシン「F1インスタンス」で利用可能にする。従来に比べて39倍の... 続きを読む
DMM.comのビッグデータ基盤を支える技術 // Speaker Deck
TECH PLAY Conference 2017 の発表資料となります ビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ 鈴木 翔太 / 吉田 龍馬 === 弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用... 続きを読む
Oss貢献超入門
Oss貢献超入門 1. OSS貢献超入門 builderscon2017 2017/8/5 shigemk2 2. 自己紹介 ● shigemk2 ● アドテクエンジニア ● ScalaとかHadoopとかReactとか ● http://www.shigemk2.com/ 3. 超結論 好きなリポジトリを ウォッチしよう 4. 今日の流れ 1. 対象者 2. OSSとは 3. 貢献できない理由 ... 続きを読む
Hadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない - ブログなんだよもん
2017 - 07 - 11 Hadoop の時代は終わってないけど、使いどころは限定されてきたかもしれない 読み物 分散 id:shiumachi さんが書かれてる下記の記事がとても良かったです。 shiumachi.hatenablog.com 私自身もSparkを触る前は「 Hadoop == MapReduce 」と思ってましたが、どちらかというとYARNや HDFS が Hadoop フ... 続きを読む
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoop の時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、 Hadoop とその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜ Hadoop の時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私は Hadoop を中心としたデータ基盤を取り扱... 続きを読む
Cloudera、AWS上でPaaS「Cloudera Altus」提供を発表。ビッグデータの分析基盤をサービスとして提供 - Publickey
Cloudera、AWS上でPaaS「Cloudera Altus」提供を発表。ビッグデータの分析基盤をサービスとして提供 先月4月28日にニューヨーク証券取引所に上場したばかりのClouderaは、クラウドサービス「 Cloudera Altus 」を発表しました。 これまで主要なHadoop/Sparkのディストリビューションベンダーとして知られてきた同社によるクラウドサービスの提供開始は、同... 続きを読む
Hadoopは失敗した、という分析
Use Evernote to create, collect, and share everything that matters in your personal and professional life. Get started now. 続きを読む
HDFS Erasure Codingの紹介とYahoo! JAPANにおける運用事例 - Yahoo! JAPAN Tech Blog
はじめに こんにちは。Yahoo! JAPANでHadoopに携わっているエンジニアの浅沼です。Hadoopは大量のデータを分散処理するためのオープンソースソフトウエアです。この夏にリリース予定のバージョン3.0系には、HDFSの新機能であるErasure Codingが導入されます。Yahoo! JAPANではHadoopコミュニティーでErasure Codingの実装に参加してきました。本記... 続きを読む
HadoopやMongoDBのデータ消去被害が続出、世界各国で - ITmedia エンタープライズ
「適切な認証なしにインターネットに直接露呈されているデータベースサービスは、データを盗まれたり、消去されたりする危険がある」とセキュリティ企業は警鐘を鳴らしている。 世界各国でHadoopやMongoDBなどのシステムがサイバー攻撃の標的にされ、身代金を要求されたり、データを消去されたりする被害が相次いでいるという。セキュリティ企業やメディア各社が伝えた。 セキュリティ企業Fidelis Cybe... 続きを読む
非英語ネイティブにとってのOSSのメンテナンスコスト - once upon a time,
2017 - 01 - 01 非英語ネイティブにとってのOSSのメンテナンスコスト community program disclaimer: この記事を書いている人はClouderaという Hadoop /Sparkの ディストリビューター の会社にいます。 codelunch.fmの20回目を聞いていろいろ思うところがあったのでつらつら買いてみます。 codelunch.fm この回のcode... 続きを読む
Asakusaとメニーコア - 急がば回れ、選ぶなら近道
アドベントカレンダーのエントリーなんで、軽めに。 AsakusaはもともとHadoopでバッチ処理を開発・実行するためのフレームワークだ。これは別に今でもかわっていない。ただし、実行基盤は増えているし、推奨基盤も変わりつつある。現在のところの推奨基盤はバッチあたりで利用するデータ処理の規模が単ノードで完了するような場合はM3BPで、そうでない場合すなわち複数ノードにまたがるような場合は、Spark... 続きを読む
#eigo と私〜あるいは子持ちの業務外活動の続け方 - once upon a time,
2016 - 12 - 21 #eigo と私〜あるいは子持ちの業務外活動の続け方 english こんにちは、温泉行きたいです。この記事は、 pyspaアドベントカレンダー2016 の21日目です。1日前は、 渋川さん の保険の話でした。 Clouderaという 外資 系の Hadoop /Sparkを中心としたプラットフォームを提供する会社に今年転職しました。そこで生きていく上で必要な #ei... 続きを読む
新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮
2016 - 11 - 24 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した 新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した 、というので早速使ってみました。 翻訳対象は HadoopのFair Schedulerに関するドキュメント です。 Fair Schedulerは、Capacity Schedulerと並ぶ Hadoop の2... 続きを読む
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介 1. 1 金融機関でのHive/Presto事例紹介 2016/02/08 Ryosuke Iwanaga Solutions Architect, Amazon Web Services Japan 2. 2 Amazon EMR - 1クリックでHadoop/Spark • 分散処理基盤 – クラスタを簡単に構築 して破棄 • 分散処理アプリ – 使... 続きを読む
YARN、HDFS、そしてSparkの将来像とは:「Hadoop/Spark Con」基調講演 - ZDNet Japan
日本Hadoopユーザー会は2月8日、東京都品川区で「Hadoop Conference Japan 2016」を開催した。第6回目となる今回のイベントでは「Spark Conference Japan 2016」が初めて併催され、キーノートにはApache Sparkの主要開発者であるXin Reynold氏も登壇。2016年にリリース予定のSparkの次期バージョン「Spark 2.0」の最新... 続きを読む
第15回 計算機クラスタのためのリソース管理基盤 Hadoop YARN:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回は, MapReduceとその実装であるApache Hadoopの概要について説明しました。今回は, Apache Hadoopにおいて計算機クラスタのリソース管理を行うYARNについて解説します。 多種多様な処理系の登場 Hadoopの登場を1つの契機として, コモディティな計算機を複数台用いた計算機クラスタ上でデータ処理を行うことが広く普及しつつあります。たとえば, Hadoo... 続きを読む
コミッタが語る,HadoopやSpark,2016年はどうなる?:新春特別企画|gihyo.jp … 技術評論社
あけまして, おめでとうございます。 例年, Apache Hadoopを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。 今年は, NTTデータに所属する 鯵坂 明 (Apache Hadoopコミッタ) 岩崎 正剛 (Apache Hadoop開発者, HTraceコミッタ) 関 賢吾 (Apache Yetusコミッタ) 猿田 浩輔 (Apache Sparkコミッタ) ... 続きを読む
株式会社ドワンゴを退職しました - frkout's diary
2015 - 12 - 23 株式会社ドワンゴを退職しました 2013年に新卒で入って3年弱働いた株式会社 ドワンゴ を12月末で退職します。 12/22最終出社で現在有給消化期間です。 配属された大規模データ分析基盤開発チームで2年半業務し、最後の1年間は開発リーダーを任せていただきました。 ビッグデータ とか Hadoop をメインにいろいろ自由にやらせてもらえて本当に楽しかったです。 内定後... 続きを読む
第13回 Hadoopの設計と実装~並列データ処理系Hadoop MapReduce[1]:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 第一部では,Hadoopなどの並列データ処理系の基礎である並列データベース技術や分散システム技術を解説してきました。第二部では,実際の処理系により焦点を当て,それらの設計と実装を見ていきます。 第二部では,最初の4回を用いて,Apache Hadoopの並列データ処理系であるHadoop MapReduceを始めとし,当該処理系のリソース管理を行うYARNおよび,汎用的な並列データ処理系... 続きを読む