タグ「大規模データ処理」

タグ大規模データ処理

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 13 / 13件)

プロダクトへの貢献を目指す、Chatworkの次世代データ分析基盤 - Chatwork Creator's Note

2022/09/15 5 users ChatWork Note Dre 貢献プロダクト

こんにちは。データエンジニアのみっつと申します。 CTO室というところで次世代データ分析基盤プロジェクトというものを推進しております。 2022/09/01で入社(中途)してから１年が経ち２年目に突入しました。前職では長年アドテクノロジー分野の大規模データ処理を経験し、Chatworkへはデータエンジニア(DRE)第1号として... 続きを読む

1000万件オーバーのレコードのデータをカジュアルに扱うための心構え - joker1007’s diary

2020/11/04 1179 users 前提分散処理規模弊社心構え

自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかり... 続きを読む

データ指向アプリケーションデザイン - Taro L. Saito - Medium

2019/07/18 148 users medium データ指向アプリケーションデザイン竜司玉川

AmazonでMartin Kleppmann, 斉藤太郎, 玉川竜司のデータ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理。アマゾンならポイント還元本が多数。Martin Kleppmann… 手軽に扱えるデータの量や種類が増える一方、CPUの性能はムーアの法則通りには成長しなくなり、大規模データ処理では... 続きを読む

Apache IgniteとApache Sparkの統合による大規模データ処理における機能拡張や処理能力の向上 - Yahoo! JAPAN Tech Blog

2019/02/22 19 users Apache Spark 統合 Yahoo 一方機能拡張

Apache Igniteは、Apache Sparkと同様にインメモリ技術を活用した高耐障害性分散データ処理プラットフォームです。しかし、Apache Sparkは非トランザクション(バッチ)的な分析を処理の対象をしている一方、Apache Igniteはリアルタイム処理に優れ、非トランザクションとACIDトランザクション的な処理を両方サポートしま... 続きを読む

Digdagによる大規模データ処理の自動化とエラー処理

2017/06/08 38 users Digdag Inc エラー処理自動化

Digdagによる大規模データ処理の自動化とエラー処理 1. Digdagによる大規模データ処理の  自動化とエラー処理 Sadayuki Furuhashi Workﬂow Engines Night 2. Sadayuki Furuhashi A founder of Treasure Data, Inc. located in Silicon Valley. OSS projects I f... 続きを読む

分析SQLのコーディングスタイル - クックパッド開発者ブログ

2016/11/08 837 users コーディングスタイル SQLクエリー SQL バッチいまどき

2016 - 11 - 09 分析SQLのコーディングスタイル SQL、書いてますか？こと大規模データ処理の分野においてはSQLはもはや標準インターフェイスであり、分析やらバッチやらに関わっている皆様は日々大量のSQLクエリーを生産していることと思います。そこでちょっと気になるのが、 SQLのコーディングスタイルってどうするのが一般的なんだっけ……？という点です。イマドキはSQLなんてO... 続きを読む

VMwareとGoogleがパブリッククラウドで連携。vCloud AirからBigQueryやGoogle Cloud Storageなどが利用可能に－ Publickey

2015/01/29 32 users VMware Publickey BigQuery 連携機能

VMwareとGoogleはパブリックラウドで連携、vCloud Airの機能としてGoogle Cloud Platformを緊密に連携させることを発表しました。具体的には、vCloud Airから以下のGoogle Cloud Platformの機能が利用可能になります。 Google Cloud Storage（分散オブジェクトストレージ） Google BigQuery（大規模データ処理... 続きを読む

Spark / MLlib の K-means を Java から利用してみる - ALBERT Engineering Blog

2014/05/08 26 users MLlib Spark k-means Java アナウンス

はじめに先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装をわけあって Java から利用してみる機会があったので、その使... 続きを読む

The Apache Software Foundationは、「Apache Cassandra 1.0」のリリースを発表しました。CassandraはNoSQLデータベースの代表的なソフトウェアです。もともとはFacebookで2008年に大規模データ処理のために開発され、その後オープンソースとなって2009年からApache Software Foundationのプロジェクトとして開発され... 続きを読む

「実現したいことを計算機の問題に置き換えることが『技術力』」、伊藤CTOが“はてな流”大規模データ処理の極意を語る：CodeZine

2008/11/19 668 users CodeZine 極意計算機はてな流技術力

% sudo /sbin/hdparm -tT /dev/sda /dev/sda: Timing cached reads: 15012 MB in 1.99 seconds ＝ 7525.03 MB/sec Timing buffered disk reads: 176 MB in 3.02 seconds ＝ 58.37 MB/sec 上がキャッシュリード（メモリにあるOSのページキャッシュ... 続きを読む

Google の大規模データ処理: Days on the Moon

2008/01/25 270 users Google Days on the Moon 使命メモ

Google の鵜飼文敏さんによる講演会「大規模データ処理を可能にする Google の技術」に行ってきました。内容的には筑波大学で開かれたものと同じではないかと思います (「新ビジネスモデル」がそのままだったことなどから)。以下、上記記事に載っていないことを中心にメモから抜書きを。此頃 Google にはやる物現在 Google では Google の使命 (Google's mission... 続きを読む

(1 - 13 / 13件)