タグ Luigi
人気順 10 users 50 users 100 users 500 users 1000 users機械学習パイプラインLuigiのタスク同士の関係を良い感じに可視化する方法 - ドワンゴ教育サービス開発者ブログ
はじめに ドワンゴ教育事業でデータサイエンティストとして働いている中井です。 この記事では、PythonのパイプラインパッケージであるLuigiで構築したパイプラインにおいて、それを構成するタスク間の依存関係・タスクのグループ間(task_namespace で分けられる)の依存関係を良い感じに出力する方法についてお話しし... 続きを読む
PythonのPipelineパッケージ比較:Airflow, Luigi, Gokart, Metaflow, Kedro, PipelineX - Qiita
この記事では、Open-sourceのPipeline/Workflow開発用PythonパッケージのAirflow, Luigi, Gokart, Metaflow, Kedro, PipelineXを比較します。 この記事では、"Pipeline"、"Workflow"、"DAG"の単語はほぼ同じ意味で使用しています。 要約 : 良い : より良い https://github.com/apache/airflow 2015年にAirbnb社からリリ... 続きを読む
AWS Batchの基本的な機能とユースケースについて | Developers.IO
バッチ処理 世の中のITシステムのほとんどは、データが発生し、流れて、処理し、蓄積されるジョブの繰り返しです。AWS Batchは、このようなバッチジョブを効率的におこなうための管理サービスです。Pegasus WMS、Cromwell、Luigiといった主要なワークフローエンジンをサポートしています。実際のジョブの実行は、EC2やSpotインスタンスが動的にアサインされて実行されます。 データフ... 続きを読む
Workflowつくーる - Workflow Engine をつくろう! Part 2 (Workflow の冪等性) - Qiita
Part 1 (Task の依存関係の解決)はこちら まえおき この連載記事で作成する Workflow Engine は、 Luigi の設計思想に大きく影響を受けています。なので、 @k24d さんの Luigi によるワークフロー管理 を先に読んでおくと、理解が深まると思います。 前回は Task の依存関係の解決方法を実装しましたが、Part 2の今回は Workflow の冪等性について... 続きを読む
TreasureData - Luigi によるワークフロー管理 - Qiita
Workflow Hacks! #1 が開催されるなど、データ分析のワークフロー管理が見直されつつある今日この頃ですが、Treasure Data 社内ではこれまでのところ Luigi を主なツールとして利用しています。ここでは Luigi を使ったワークフローがどのようなものであるかを紹介します。 ワークフロー管理ツールとは? データ分析における「ワークフロー管理ツール」とは、データ処理の過程で... 続きを読む
ETLフレームワークとジョブ管理 - wyukawa’s blog
AzkabanTreasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。Managing the Data Pipeline with Git + Luigi | The Treasure Data Blogリンク先の記事を僕なりに要約すると、データやそれを加工するスクリプトがちらばって管理が辛くなり、エラー... 続きを読む