タグ 大規模データ処理
人気順 10 users 50 users 100 users 500 users 1000 usersプロダクトへの貢献を目指す、Chatworkの次世代データ分析基盤 - Chatwork Creator's Note
こんにちは。データエンジニアのみっつと申します。 CTO室というところで次世代データ分析基盤プロジェクトというものを推進しております。 2022/09/01で入社(中途)してから1年が経ち2年目に突入しました。前職では長年アドテクノロジー分野の大規模データ処理を経験し、Chatworkへはデータエンジニア(DRE)第1号として... 続きを読む
1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかり... 続きを読む
データ指向アプリケーションデザイン - Taro L. Saito - Medium
AmazonでMartin Kleppmann, 斉藤 太郎, 玉川 竜司のデータ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理。アマゾンならポイント還元本が多数。Martin Kleppmann… 手軽に扱えるデータの量や種類が増える一方、CPUの性能はムーアの法則通りには成長しなくなり、大規模データ処理では... 続きを読む
Apache IgniteとApache Sparkの統合による大規模データ処理における機能拡張や処理能力の向上 - Yahoo! JAPAN Tech Blog
Apache Igniteは、Apache Sparkと同様にインメモリ技術を活用した高耐障害性分散データ処理プラットフォームです。 しかし、Apache Sparkは非トランザクション(バッチ)的な分析を処理の対象をしている一方、Apache Igniteはリアルタイム処理に優れ、非トランザクションとACIDトランザクション的な処理を両方サポートしま... 続きを読む
Digdagによる大規模データ処理の自動化とエラー処理
Digdagによる大規模データ処理の自動化とエラー処理 1. Digdagによる大規模データ処理の 自動化とエラー処理 Sadayuki Furuhashi Workflow Engines Night 2. Sadayuki Furuhashi A founder of Treasure Data, Inc. located in Silicon Valley. OSS projects I f... 続きを読む
分析SQLのコーディングスタイル - クックパッド開発者ブログ
2016 - 11 - 09 分析SQLのコーディングスタイル SQL、書いてますか? こと大規模データ処理の分野においてはSQLはもはや標準インターフェイスであり、 分析やらバッチやらに関わっている皆様は日々大量のSQLクエリーを生産していることと思います。 そこでちょっと気になるのが、 SQLのコーディングスタイルってどうするのが一般的なんだっけ……? という点です。 イマドキはSQLなんてO... 続きを読む
VMwareとGoogleがパブリッククラウドで連携。vCloud AirからBigQueryやGoogle Cloud Storageなどが利用可能に - Publickey
VMwareとGoogleはパブリックラウドで連携、vCloud Airの機能としてGoogle Cloud Platformを緊密に連携させることを発表しました。 具体的には、vCloud Airから以下のGoogle Cloud Platformの機能が利用可能になります。 Google Cloud Storage(分散オブジェクトストレージ) Google BigQuery(大規模データ処理... 続きを読む
Spark / MLlib の K-means を Java から利用してみる - ALBERT Engineering Blog
はじめに 先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。 そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装を わけあって Java から利用してみる機会があったので、その使... 続きを読む
第7回 大規模データ処理におけるCPUとI/Oのバランスをどう考えるか|gihyo.jp … 技術評論社
第4回 大規模データ処理におけるCPUの2大ボトルネックとは|gihyo.jp … 技術評論社
NoSQLのCassandraが1.0に。読み込み性能は400%向上 - Publickey
The Apache Software Foundationは、「Apache Cassandra 1.0」のリリースを発表しました。CassandraはNoSQLデータベースの代表的なソフトウェアです。もともとはFacebookで2008年に大規模データ処理のために開発され、その後オープンソースとなって2009年からApache Software Foundationのプロジェクトとして開発され... 続きを読む
「実現したいことを計算機の問題に置き換えることが『技術力』」、伊藤CTOが“はてな流”大規模データ処理の極意を語る:CodeZine
% sudo /sbin/hdparm -tT /dev/sda /dev/sda: Timing cached reads: 15012 MB in 1.99 seconds = 7525.03 MB/sec Timing buffered disk reads: 176 MB in 3.02 seconds = 58.37 MB/sec 上がキャッシュリード(メモリにあるOSのページキャッシュ... 続きを読む
Google の大規模データ処理: Days on the Moon
Google の鵜飼文敏さんによる講演会「大規模データ処理を可能にする Google の技術」に行ってきました。内容的には筑波大学で開かれたものと同じではないかと思います (「新ビジネスモデル」がそのままだったことなどから)。以下、上記記事に載っていないことを中心にメモから抜書きを。 此頃 Google にはやる物 現在 Google では Google の使命 (Google's mission... 続きを読む