タグ データパイプライン
人気順 5 users 50 users 100 users 500 users 1000 usersKafka Streams はレコードをどのように処理しているのか - Repro Tech Blog
Platform Team/Repro Core Unit の村上です。 Repro では Kafka を基盤としたストリーム処理のアプリケーションを構築する際に、Kafka Streams を積極的に活用しています。 Kafka Streams は、フォールトトレラントなステートフル処理を簡潔に実装でき、データパイプラインを Topology という表現で抽象化することで、複... 続きを読む
Netflixが大規模ワークフローの管理システム「Maestro」をオープンソース化
Netflixが自社製ワークフローオーケストレーター「Maestro」をオープンソース化しました。MaestroはNetflix社内で現役稼働しており、データパイプラインや機械学習パイプラインといった大規模ワークフローの管理に使われているそうです。 Maestro: Netflix’s Workflow Orchestrator | by Netflix Technology Blog | Jul,... 続きを読む
pandasのSeriesとMagicMockの併用でハマった件 - エムスリーテックブログ
この記事はエムスリーAdvent Calendar 2023の18日目の記事です。 AI・機械学習チームの高田です。 AI・機械学習チームではデータパイプラインを構築する機会が多く、パイプラインの中でpandasを活用しています。 今回はpandasのSeries型を扱う関数の単体テストにMagicMockを使った際にハマったポイントを紹介したいと思... 続きを読む
Factory patternでデータベースのテストを効率化する. はじめに | by Atsushi Sumita | Finatext | Oct, 2020 | Medium
An image of a factory from https://unsplash.com/photos/6xeDIZgoPawはじめにこんにちは, FinatextグループのNowcastでデータエンジニア/データサイエンティストをやっている隅田(@yummydum)と申します. データパイプラインを開発していると, データベースからデータを取り出し, 加工し, 結果を再度データベースに格納... 続きを読む
データマネジメントなき経営は、破綻する。 #dl_guild / 20200419 - Speaker Deck
データマネジメントなき経営は、破綻する。 ~ 2つのデータ分析プロジェクトに学ぶ「残酷な真実」~ 第1回 DLG Cross (データマネジメントとデータパイプライン) の発表資料です。 https://data-learning-guild.connpass.com/event/170177/ データマネジメントの Why(なぜ必要か) What(どんな活動なのか) How(どうや... 続きを読む
最近の砂場活動その12: Data Studioを使ってGoogle Analyticsと任意のデータを紐付けてデータ分析する - yasuhisa's blog
仕事でデータ分析をやる機運が高まっていて、Google Data Studioをぼちぼち使っていこうとしてる。仕事のデータは分析する前のデータパイプラインなどあれこれ考える必要があるので、ひとまず趣味プロジェクトのML-Newsを題材にして遊んでみる。こういうときに雑に遊べる砂場プロジェクトは最高。 Data Studioの大雑把な... 続きを読む
データのクラウドへの引っ越しを助けるAloomaをGoogleが買収 | TechCrunch Japan
Googleが今日(米国時間2/19)、企業のすべてのデータソースをGoogleのBigQueryやAmazonのRedshift、Snowflake、あるいはMicrosoftのAzureなどのクラウドサービスに向けて整えるサービスAloomaを買収する、と発表した。Aloomaの仕事は、企業のデータパイプラインをユーザーに代わって管理することだ。また、このデータ統... 続きを読む
データパイプラインに関する知見をカジュアルに語る! Data Pipeline Casual Talkに参加してきた #DPCT | DevelopersIO
昨日(2019年02月13日(水))、下記のイベント(勉強会)に参加してきました。データ分析基盤、また機械学習基盤に取って、要望を満たすデータを整形、準備する『パイプライン』の存在は必要不可欠です。そんな題材をテーマにし […] 続きを読む
第9回[最終回] データパイプラインのためのワークフロー管理:これなら使える!ビッグデータ分析基盤のエコシステム|gihyo.jp … 技術評論社
基本KPIや応用KPIが決まり,実際に,毎日の運用の中で定期的にデータを更新して,可視化するためには,一連の処理を自動化する必要があります。今回は,データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。 データパイプラインとワークフロー管理 データパイプライン (以下,パイプライン)とは,データ処理を行なう小さなタスク(1回のファイルコピーや,SQLの実行など)を順次実行すること... 続きを読む
Google、SparkとHadoopのマネージドサービス、Cloud Dataprocを提供開始 | TechCrunch Japan
Googleは、Google Cloud Platformのビッグデータサービス群に新たな製品を今日追加する。新サービスのGoogle Cloud Dataprocは現在ベータ版で、データ処理エンジンのSparkやHadoopフレームワークをバーチャルマシン上で直接管理し、Googleプラットフォーム上のデータパイプラインを統合するCloud Dataflowのような完全マネージド型サービスとの中... 続きを読む