タグ データレイク
人気順 10 users 50 users 100 users 500 users 1000 users更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて - Repro Tech Blog
Reproでチーフアーキテクトを担当しているjoker1007です。 今回、社内のデータストレージの将来的な選択肢の一つとしてApache Hudiというテーブルデータフォーマットについて調査と実データでの検証を実施しました。 この記事では2回に分けて、そもそもhudiってどんなフォーマットなのか、どういうデータで検証してどん... 続きを読む
データレイクのデータスキャン量を25%削減する方法
こんにちは。ヤフー広告でデータエンジニアをしている長峯です。 LINEヤフー株式会社では、Yahoo! JAPANと関連企業が所有するデータを活用することでお客様のマーケティング課題の発見と解決を実現するサービスYahoo! JAPAN データマーケティングソリューションを展開しています。私は本サービスを通じてお客様がさまざ... 続きを読む
TechCrunchの2023年予測!データサイエンス分野における4つのトレンド【テッククランチ】
TechCrunchの2023年予測!データサイエンス分野における4つのトレンド【テッククランチ】 2023年1月18日 寄稿者 Torsten Grabs Snowflakeの製品管理ディレクター。データエンジニアリング、データレイク、データサイエンスワークロード、Snowpark開発者エクスペリエンスを統括している。 データサイエンスは長い間、複雑... 続きを読む
新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキ... 続きを読む
Delta Lake とは何か - connecting the dots
はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta L... 続きを読む
Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション で... 続きを読む
AWS 上にデータレイクを構築し分析する方法を AWS エキスパートと一緒に1日で学びませんか? | Amazon Web Services
Amazon Web Services ブログ AWS 上にデータレイクを構築し分析する方法を AWS エキスパートと一緒に1日で学びませんか? この記事は、2021年3月30日に Kumar Kumaraguruparan によって投稿された Spend a day with AWS experts, and learn how to build a data lake を翻訳したものです。 データ分析・活用になぜデー... 続きを読む
S3データレイクをAWSの分析サービスを使って有効活用する #AWS-06 #AWSSummit | DevelopersIO
本記事は、AWS Summit Japan 2021のセッション動画、「AWS-06: 貯めるだけじゃもったいない!AWS 分析サービスを使ったデータレイクの有効活用」のレポート記事です。 「データはとりあえずS3に溜めておけ!」とデータレイクっぽいものは作れたけど上手く使いこなせていない方、それなりにいらっしゃるのではないでしょ... 続きを読む
データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコム Design & Tech Blog
こんにちは佐々木です。 いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1... 続きを読む
AWSで“データのサイロ化”を防げ すべてのデータを1ヶ所に集めるデータレイクの作り方 - ログミーTech
リーガルテック領域のリーディングカンパニーである株式会社LegalForceが、「検索インフラTechTalk!」を開催しました。インフラ領域の中でも「検索インフラ」にフォーカスした今回は、検索インフラに関する具体的な事例や取り組みについて各スピーカーから発表がありました。野口真吾氏は、AWSを用いたデータレイクの基... 続きを読む
【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 | Developers.IO
【書評】データレイク構築・運用のノウハウを網羅的に学び始められる! 『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』 先日2020年07月09日、書籍『AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門』が発売されました!個人的に興味関心の強いテーマを取り上... 続きを読む
「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 | Amazon Web Services ブログ
Amazon Web Services ブログ 「AWSではじめるデータレイク」出版記念データレイク解説セミナーの資料公開 去年よりAWSのメンバー4名(志村、上原、関山、下佐粉)でデータレイクの基礎からアーキテクチャ、構築、運用管理までをカバーした書籍「AWSではじめるデータレイク」を執筆してきたのですが、7月出版の目処がた... 続きを読む
ASCII.jp:「平均的な開発者にも機械学習の力を」――AWSジャシーCEO基調講演 (1/4)|今年もビルダーを魅了!AWS re:Invent 2019レポート
Amazon Web Services(AWS)が2019年12月2日~6日(現地時間)、米国ラスベガスで開催した「AWS re:Invent 2019」。同社CEOのアンディ・ジャシー氏による3時間に及ぶ基調講演では、多数の新発表が行われた。 前々回記事のIaaS関連(コンピュート、オンプレミス/エッジ)領域、前回はデータレイク/分析(アナリティクス... 続きを読む
Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio | Developers.IO
クラスメソッドの石川です。 先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。 スライド こちら […] 続きを読む
カスタマージャーニーのデータを直接扱えるAdobeのツールが登場 | TechCrunch Japan
Adobeは、データを収集して顧客を理解するための分析と顧客体験のプラットフォームに力を入れている。米国時間9月10日、同社はカスタマージャーニーのデータを直接扱い、よりよい顧客体験を実現する新しい分析ツールを発表した。 カスタマージャーニーには、企業のデータレイクからCRM、POSまで、多くのシステムが関係し... 続きを読む
安全なデータレイクの構築が容易になる AWS Lake Formation がついにリリースされました | DevelopersIO
昨年のre:Invent2018で紹介されたAWS Lake Formation がついにリリースされました。東京リージョンでもリリースされましたので、早速、試してみたいと思います。 ついにきましたLake Formation. データレイクの構築が容易に。 AWS Lake Formation – Now Generally Available | AWS News Blog https://t.co/qBdo8Ubj8O — ... 続きを読む
分析者から見た使いにくいデータ基盤の話 | リクルートテクノロジーズ メンバーズブログ
リクルートテクノロジーズのアドベントカレンダーの 12/25 の分です。 https://adventar.org/calendars/3063 要するにデータが潤沢なデータレイクと、秩序だったデータウェアハウスがほしいという話をします。データマートは分析者も必要に応じて作ればいいので、なくても問題ないです。データレイク、データウェアハウ... 続きを読む
SAP HANAを使用したAWSデータレイクに対するフェデレーテッドクエリの実行 | Amazon Web Services ブログ
Amazon Web Services ブログ SAP HANAを使用したAWSデータレイクに対するフェデレーテッドクエリの実行 この記事は、Amazon Web Services (AWS)でソリューション アーキテクトを務めるHarpreet Singhによるものです。 アバディーンの調査によると、データレイクを導入している組織は、類似企業に比べて有機的収益成長率... 続きを読む
[AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 | Amazon Web Services ブログ
Amazon Web Services ブログ [AWS Black Belt Online Seminar] データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 資料及び QA 公開 こんにちは、マーケティングの鬼形です。 先日 (2018/6/19) 開催しました AWS Black Belt Online Seminar「データレイク入門: AWSで様々な規模のデータレイクを分... 続きを読む
AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する | Amazon Web Services ブログ
Amazon Web Services ブログ AWS Glue と Amazon S3 を使用してデータレイクの基礎を構築する by AWS Japan Staff | on 31 OCT 2017 | in AWS Glue* | Permalink | Share データレイクは、大量の様々なデータを扱うという課題に対処するため、データを分析および保存するための方法としてますます一般的になっ... 続きを読む