タグ データパイプライン
人気順 10 users 50 users 100 users 500 users 1000 usersKafka Streams はレコードをどのように処理しているのか - Repro Tech Blog
Platform Team/Repro Core Unit の村上です。 Repro では Kafka を基盤としたストリーム処理のアプリケーションを構築する際に、Kafka Streams を積極的に活用しています。 Kafka Streams は、フォールトトレラントなステートフル処理を簡潔に実装でき、データパイプラインを Topology という表現で抽象化することで、複... 続きを読む
Netflixが大規模ワークフローの管理システム「Maestro」をオープンソース化
Netflixが自社製ワークフローオーケストレーター「Maestro」をオープンソース化しました。MaestroはNetflix社内で現役稼働しており、データパイプラインや機械学習パイプラインといった大規模ワークフローの管理に使われているそうです。 Maestro: Netflix’s Workflow Orchestrator | by Netflix Technology Blog | Jul,... 続きを読む
pandasのSeriesとMagicMockの併用でハマった件 - エムスリーテックブログ
この記事はエムスリーAdvent Calendar 2023の18日目の記事です。 AI・機械学習チームの高田です。 AI・機械学習チームではデータパイプラインを構築する機会が多く、パイプラインの中でpandasを活用しています。 今回はpandasのSeries型を扱う関数の単体テストにMagicMockを使った際にハマったポイントを紹介したいと思... 続きを読む
MonotaROのMLOps〜バンディットアルゴリズムの効果を最大化するリアルタイムデータパイプライン〜 - MonotaRO Tech Blog
はじめに 皆さん、こんにちは。MonotaROTechBlogをご覧いただきありがとうございます。データサイエンスグループ所属の植村です。今回の記事では、MonotaROで取り組んでいるバンディットアルゴリズムを用いた施策を支える、データパイプライン*1を紹介したいと思います。リアルタイムな情報を用いて最適化を行う基盤を提... 続きを読む
リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log
はじめに リバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has g... 続きを読む
Factory patternでデータベースのテストを効率化する. はじめに | by Atsushi Sumita | Finatext | Oct, 2020 | Medium
An image of a factory from https://unsplash.com/photos/6xeDIZgoPawはじめにこんにちは, FinatextグループのNowcastでデータエンジニア/データサイエンティストをやっている隅田(@yummydum)と申します. データパイプラインを開発していると, データベースからデータを取り出し, 加工し, 結果を再度データベースに格納... 続きを読む
データマネジメントなき経営は、破綻する。 #dl_guild / 20200419 - Speaker Deck
データマネジメントなき経営は、破綻する。 ~ 2つのデータ分析プロジェクトに学ぶ「残酷な真実」~ 第1回 DLG Cross (データマネジメントとデータパイプライン) の発表資料です。 https://data-learning-guild.connpass.com/event/170177/ データマネジメントの Why(なぜ必要か) What(どんな活動なのか) How(どうや... 続きを読む
機械学習とHuman-in-the-Loopで優勝する違反検知の話 - Mercari Engineering Blog
こんにちは。AIチーム所属ソフトウェアエンジニアの@shidoです。 機械学習は様々なサービスの中で強力な武器となりますが、データパイプラインの構築や学習のための計算リソースの確保など、リーズナブルにシステムに組み込むには機械学習特有の困難を克服しなければなりません。 またその困難は機械学習の応用先によっ... 続きを読む
最近の砂場活動その12: Data Studioを使ってGoogle Analyticsと任意のデータを紐付けてデータ分析する - yasuhisa's blog
仕事でデータ分析をやる機運が高まっていて、Google Data Studioをぼちぼち使っていこうとしてる。仕事のデータは分析する前のデータパイプラインなどあれこれ考える必要があるので、ひとまず趣味プロジェクトのML-Newsを題材にして遊んでみる。こういうときに雑に遊べる砂場プロジェクトは最高。 Data Studioの大雑把な... 続きを読む
データのクラウドへの引っ越しを助けるAloomaをGoogleが買収 | TechCrunch Japan
Googleが今日(米国時間2/19)、企業のすべてのデータソースをGoogleのBigQueryやAmazonのRedshift、Snowflake、あるいはMicrosoftのAzureなどのクラウドサービスに向けて整えるサービスAloomaを買収する、と発表した。Aloomaの仕事は、企業のデータパイプラインをユーザーに代わって管理することだ。また、このデータ統... 続きを読む
データパイプラインに関する知見をカジュアルに語る! Data Pipeline Casual Talkに参加してきた #DPCT | DevelopersIO
昨日(2019年02月13日(水))、下記のイベント(勉強会)に参加してきました。データ分析基盤、また機械学習基盤に取って、要望を満たすデータを整形、準備する『パイプライン』の存在は必要不可欠です。そんな題材をテーマにし […] 続きを読む
第9回[最終回] データパイプラインのためのワークフロー管理:これなら使える!ビッグデータ分析基盤のエコシステム|gihyo.jp … 技術評論社
基本KPIや応用KPIが決まり,実際に,毎日の運用の中で定期的にデータを更新して,可視化するためには,一連の処理を自動化する必要があります。今回は,データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。 データパイプラインとワークフロー管理 データパイプライン (以下,パイプライン)とは,データ処理を行なう小さなタスク(1回のファイルコピーや,SQLの実行など)を順次実行すること... 続きを読む
Google、SparkとHadoopのマネージドサービス、Cloud Dataprocを提供開始 | TechCrunch Japan
Googleは、Google Cloud Platformのビッグデータサービス群に新たな製品を今日追加する。新サービスのGoogle Cloud Dataprocは現在ベータ版で、データ処理エンジンのSparkやHadoopフレームワークをバーチャルマシン上で直接管理し、Googleプラットフォーム上のデータパイプラインを統合するCloud Dataflowのような完全マネージド型サービスとの中... 続きを読む