タグ Hadoop処理系
人気順 5 users 50 users 100 users 500 users 1000 users第15回 計算機クラスタのためのリソース管理基盤 Hadoop YARN:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回は, MapReduceとその実装であるApache Hadoopの概要について説明しました。今回は, Apache Hadoopにおいて計算機クラスタのリソース管理を行うYARNについて解説します。 多種多様な処理系の登場 Hadoopの登場を1つの契機として, コモディティな計算機を複数台用いた計算機クラスタ上でデータ処理を行うことが広く普及しつつあります。たとえば, Hadoo... 続きを読む
第13回 Hadoopの設計と実装~並列データ処理系Hadoop MapReduce[1]:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 第一部では,Hadoopなどの並列データ処理系の基礎である並列データベース技術や分散システム技術を解説してきました。第二部では,実際の処理系により焦点を当て,それらの設計と実装を見ていきます。 第二部では,最初の4回を用いて,Apache Hadoopの並列データ処理系であるHadoop MapReduceを始めとし,当該処理系のリソース管理を行うYARNおよび,汎用的な並列データ処理系... 続きを読む
第12回 複数のプロセスにおける協調動作のための仕組み─コーディネーション:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技
はじめに 前回は,分散システム技術を基本とする耐障害性のための仕組みとして,レプリケーションとロギングについて述べました。今回は,分散システムにおいて複数のプロセスが協調して動作するための仕組みであるコーディネーションについて,その概要を説明します。 コーディネーションとは 並列データ処理系におけるコーディネーションは,複数のプロセス間において,協調して動作をする,または,同意を取るための技術です... 続きを読む
第6回 データ処理における並列アルゴリズム[1]:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回は,データ処理における並列性について説明しました。今回からは数回に渡って,当該データ処理における具体的な並列アルゴリズムについて説明します。まずはその準備として,並列システムの性能指標について見ていきます。 並列システムや並列アルゴリズムにおける性能指標 並列システムや並列アルゴリズムを評価する場合においては,スケーラビリティ(Scalability)という指標が用いられることがあり... 続きを読む
第5回 データ処理の並列化:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回は,データ処理の方法を整理し,また,宣言型言語をインターフェースとして用いる並列データベースなどのデータ処理系を詳細に見ていく準備として,当該データ処理系における実行プランの作成の流れをかんたんに説明しました。今回は,当該データ処理系において,どのように実行プランを並列化するかについて,その概要を説明します。 データ処理における並列性について 並列データベースをはじめとするデータ処理... 続きを読む
第4回 データ処理の方法:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回までは,(並列)データ処理の説明をするために必要な言葉の定義や整理をしてきました。いよいよこれからは,データ処理自体について触れていきます。今回は,アプリケーション開発者の視点から見るデータ処理にはどのようなものがあり,その観点において,Hadoopがどのようなものであるか,また,Hadoopがどのようにデータ処理を構築しているかについて,その概要を説明します。 手続き型言語によるデ... 続きを読む
第2回 並列データ処理系の歴史と重要性:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに 前回は,本連載の目的や,本連載で扱う並列データ処理の定義について説明しました。今回は,並列データ処理系の歴史や重要性について見ていきます。技術を学ぶうえで,その技術の歴史や重要性について理解しておくことはとても良いことですので,かんたんな読み物を読むつもりでお付き合いください。 並列データ処理系の進展 並列データ処理系における基本的なアルゴリズムや処理方式は,並列データベースと称される並... 続きを読む
第1回 なぜ,Hadoopはどのように動くのか,を学ぶのか:Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装|gihyo.jp … 技術評論社
はじめに ビッグデータ解析のためのシステム基盤として,Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが,当該データ処理系をすでに利用している,もしくは利用の検討をしている読者の方々の中には,たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが,その内部をあまり理解で... 続きを読む