タグ Parquet
人気順 10 users 50 users 100 users 500 users 1000 usersDuckDB で JSON Lines 形式のログを精査する
まとめ 圧縮された複数の JSON Lines を読み込める S3 から直接読み込める 好きなタイミングで Parquet で出力 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck 圧縮済みのログを読み込む 解析対象のログファイルって spam-20240501.jsonl.gz や egg-20240601.jsonl.zst みたいに圧... 続きを読む
Delta Lake とは何か - connecting the dots
はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta L... 続きを読む
[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO
[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! データアナリティクス事業本部コンサルティングチームの石川です。先日、Amazon Athenaが、UNLOADコマンドをサポートしました。SELECTクエリの結果をCSV、Parquet、Avro、ORC、JSONフォーマットでS3出力できるように... 続きを読む
ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ | AUTOMATON
国内の美少女ゲームメーカーゆずソフトは7月30日、全年齢ブランド「ゆずソフトSOUR」および同ブランドのデビュー作『PARQUET(パルケ)』を発表した。対応プラットフォームはPC(Steam/DMM GAMES/DL Site)/iOS/Androidで、価格は2500円。DMM GAMESおよびDL Siteでは7月31日0時から配信開始予定。また、PC(Steam)/iOS/... 続きを読む
(翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita
始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文: http://wesmckinney.com/blog/outlook-for-2017/) 20... 続きを読む
大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現 - Publickey
Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50%改善したと説明されています。 また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ... 続きを読む
Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開 - Publickey
データを列方向に格納することで読み出し性能を向上し、高速な分析を実現する技術は、「カラム型データベース」「カラムナーストレージ」「カラム型データストア」などと呼ばれて注目されています。その技術をHadoopのストレージに持たせることで、Hadoopでもさらに高速な分析を可能にする「Parquet」バージョン1.0を、Twitterがオープンソースで公開しました。 公開したのは7月30日と1カ月ほど... 続きを読む
/var/log/oza.log: RCFile,Parquet,ORCFile
Mar 18, 2013 RCFile,Parquet,ORCFile この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コー... 続きを読む