タグ「データパイプライン」

タグデータパイプライン

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 14 / 14件)

Cloud Composer環境における信頼性向上のためのトラブルシュート事例、あるいはOSSにコントリビュートしたらそのOSSを壊してしまった経験について - Pepabo Tech Portal

2024/12/11 8 users OSS Pepabo Tech Portal 信頼性向上

技術部の染矢です。最近は社内のデータ基盤「Bigfoot」の信頼性向上や機能開発をおこなっています。 Bigfootは、Google CloudのBigQueryとCloud Composerで主に構築された社内システムです。この記事では、Cloud Composer環境におけるデータパイプラインの信頼性を向上させた事例を紹介します。前半では、Cloud Compo... 続きを読む

Kafka Streams はレコードをどのように処理しているのか - Repro Tech Blog

2024/10/10 11 users Kafka Streams レコード Kafka Repro

Platform Team/Repro Core Unit の村上です。 Repro では Kafka を基盤としたストリーム処理のアプリケーションを構築する際に、Kafka Streams を積極的に活用しています。 Kafka Streams は、フォールトトレラントなステートフル処理を簡潔に実装でき、データパイプラインを Topology という表現で抽象化することで、複... 続きを読む

Netflixが大規模ワークフローの管理システム「Maestro」をオープンソース化

2024/07/23 14 users Maestro Jul Netflix 現役オープンソース化

Netflixが自社製ワークフローオーケストレーター「Maestro」をオープンソース化しました。MaestroはNetflix社内で現役稼働しており、データパイプラインや機械学習パイプラインといった大規模ワークフローの管理に使われているそうです。 Maestro: Netflix’s Workflow Orchestrator | by Netflix Technology Blog | Jul,... 続きを読む

pandasのSeriesとMagicMockの併用でハマった件 - エムスリーテックブログ

2023/12/18 10 users pandas 関数高田エムスリーテックブログ併用

この記事はエムスリーAdvent Calendar 2023の18日目の記事です。 AI・機械学習チームの高田です。 AI・機械学習チームではデータパイプラインを構築する機会が多く、パイプラインの中でpandasを活用しています。今回はpandasのSeries型を扱う関数の単体テストにMagicMockを使った際にハマったポイントを紹介したいと思... 続きを読む

MonotaROのMLOps〜バンディットアルゴリズムの効果を最大化するリアルタイムデータパイプライン〜 - MonotaRO Tech Blog

2022/07/19 8 users MonotaRO バンディットアルゴリズム植村施策基盤

はじめに皆さん、こんにちは。MonotaROTechBlogをご覧いただきありがとうございます。データサイエンスグループ所属の植村です。今回の記事では、MonotaROで取り組んでいるバンディットアルゴリズムを用いた施策を支える、データパイプライン*1を紹介したいと思います。リアルタイムな情報を用いて最適化を行う基盤を提... 続きを読む

リバースETLはデータパイプラインの何を変えるのか - satoshihirose.log

2021/06/16 9 users satoshihirose.log

はじめにリバース ETL という概念が提起されて、そのための SaaS も生まれており、面白いと思うので所感をまとめる。 Reverse ETL ? 自分が最初に Reverse ETL という言葉に触れたのは、Redpoint Ventures の Astasia Myers が 2021-02-23 に書いたこの記事だった。 Reverse ETL — A Primer. Data infrastructure has g... 続きを読む

Factory patternでデータベースのテストを効率化する. はじめに | by Atsushi Sumita | Finatext | Oct, 2020 | Medium

2020/10/13 22 users Oct Finatext Photos medium 隅田

An image of a factory from https://unsplash.com/photos/6xeDIZgoPawはじめにこんにちは, FinatextグループのNowcastでデータエンジニア/データサイエンティストをやっている隅田(@yummydum)と申します. データパイプラインを開発していると, データベースからデータを取り出し, 加工し, 結果を再度データベースに格納... 続きを読む

データマネジメントなき経営は、破綻する。 #dl_guild / 20200419 - Speaker Deck

2020/04/19 20 users Speaker Deck Event why How What

データマネジメントなき経営は、破綻する。 ~ 2つのデータ分析プロジェクトに学ぶ「残酷な真実」~ 第1回 DLG Cross (データマネジメントとデータパイプライン) の発表資料です。 https://data-learning-guild.connpass.com/event/170177/ データマネジメントの Why（なぜ必要か） What（どんな活動なのか） How（どうや... 続きを読む

機械学習とHuman-in-the-Loopで優勝する違反検知の話 - Mercari Engineering Blog

2020/03/25 8 users 武器計算リソース構築確保学習

こんにちは。AIチーム所属ソフトウェアエンジニアの@shidoです。機械学習は様々なサービスの中で強力な武器となりますが、データパイプラインの構築や学習のための計算リソースの確保など、リーズナブルにシステムに組み込むには機械学習特有の困難を克服しなければなりません。またその困難は機械学習の応用先によっ... 続きを読む

最近の砂場活動その12: Data Studioを使ってGoogle Analyticsと任意のデータを紐付けてデータ分析する - yasuhisa's blog

2019/08/25 14 users yasuhisa's blog 砂場活動機運データ仕事

仕事でデータ分析をやる機運が高まっていて、Google Data Studioをぼちぼち使っていこうとしてる。仕事のデータは分析する前のデータパイプラインなどあれこれ考える必要があるので、ひとまず趣味プロジェクトのML-Newsを題材にして遊んでみる。こういうときに雑に遊べる砂場プロジェクトは最高。 Data Studioの大雑把な... 続きを読む

データのクラウドへの引っ越しを助けるAloomaをGoogleが買収 | TechCrunch Japan

2019/02/20 13 users 買収クラウド TechCrunch JAPAN 引っ越し

Googleが今日（米国時間2/19）、企業のすべてのデータソースをGoogleのBigQueryやAmazonのRedshift、Snowflake、あるいはMicrosoftのAzureなどのクラウドサービスに向けて整えるサービスAloomaを買収する、と発表した。Aloomaの仕事は、企業のデータパイプラインをユーザーに代わって管理することだ。また、このデータ統... 続きを読む

データパイプラインに関する知見をカジュアルに語る！ Data Pipeline Casual Talkに参加してきた #DPCT ｜ DevelopersIO

2019/02/14 45 users DevelopersIO 知見

昨日(2019年02月13日(水))、下記のイベント(勉強会)に参加してきました。データ分析基盤、また機械学習基盤に取って、要望を満たすデータを整形、準備する『パイプライン』の存在は必要不可欠です。そんな題材をテーマにし […] 続きを読む

第9回［最終回］　データパイプラインのためのワークフロー管理：これなら使える！ビッグデータ分析基盤のエコシステム｜gihyo.jp … 技術評論社

2015/12/07 29 users ワークフロー管理 gihyo.jp ビッグデータ分析基盤

基本KPIや応用KPIが決まり，実際に，毎日の運用の中で定期的にデータを更新して，可視化するためには，一連の処理を自動化する必要があります。今回は，データパイプラインを扱うためのワークフロー管理ツールを紹介していきます。データパイプラインとワークフロー管理データパイプライン（以下，パイプライン）とは，データ処理を行なう小さなタスク（1回のファイルコピーや，SQLの実行など）を順次実行すること... 続きを読む

Google、SparkとHadoopのマネージドサービス、Cloud Dataprocを提供開始 | TechCrunch Japan

2015/09/24 26 users Hadoopフレームワーク Hadoop Spark 製品

Googleは、Google Cloud Platformのビッグデータサービス群に新たな製品を今日追加する。新サービスのGoogle Cloud Dataprocは現在ベータ版で、データ処理エンジンのSparkやHadoopフレームワークをバーチャルマシン上で直接管理し、Googleプラットフォーム上のデータパイプラインを統合するCloud Dataflowのような完全マネージド型サービスとの中... 続きを読む

(1 - 14 / 14件)