はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Parquet

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 4 / 4件)
 

DuckDB で JSON Lines 形式のログを精査する

2024/10/15 このエントリーをはてなブックマークに追加 63 users Instapaper Pocket Tweet Facebook Share Evernote Clip DuckDB ログファイル JSON Lines 出力 ロク

まとめ 圧縮された複数の JSON Lines を読み込める S3 から直接読み込める 好きなタイミングで Parquet で出力 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck 圧縮済みのログを読み込む 解析対象のログファイルって spam-20240501.jsonl.gz や egg-20240601.jsonl.zst みたいに圧... 続きを読む

Delta Lake とは何か - connecting the dots

2022/09/14 このエントリーをはてなブックマークに追加 102 users Instapaper Pocket Tweet Facebook Share Evernote Clip Connecting the dots Delta 経緯

はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta L... 続きを読む

(翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

2017/02/26 このエントリーをはてなブックマークに追加 177 users Instapaper Pocket Tweet Facebook Share Evernote Clip IBIS Feather Qiita Spark 展望

始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文: http://wesmckinney.com/blog/outlook-for-2017/) 20... 続きを読む

Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開 - Publickey

2013/09/03 このエントリーをはてなブックマークに追加 64 users Instapaper Pocket Tweet Facebook Share Evernote Clip Twitter Publickey Hadoop ストレージ

データを列方向に格納することで読み出し性能を向上し、高速な分析を実現する技術は、「カラム型データベース」「カラムナーストレージ」「カラム型データストア」などと呼ばれて注目されています。その技術をHadoopのストレージに持たせることで、Hadoopでもさらに高速な分析を可能にする「Parquet」バージョン1.0を、Twitterがオープンソースで公開しました。 公開したのは7月30日と1カ月ほど... 続きを読む

 
(1 - 4 / 4件)