はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Parquet

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 8 / 8件)
 

DuckDB で JSON Lines 形式のログを精査する

2024/10/15 このエントリーをはてなブックマークに追加 63 users Instapaper Pocket Tweet Facebook Share Evernote Clip DuckDB ログファイル JSON Lines 出力 ロク

まとめ 圧縮された複数の JSON Lines を読み込める S3 から直接読み込める 好きなタイミングで Parquet で出力 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck 圧縮済みのログを読み込む 解析対象のログファイルって spam-20240501.jsonl.gz や egg-20240601.jsonl.zst みたいに圧... 続きを読む

Delta Lake とは何か - connecting the dots

2022/09/14 このエントリーをはてなブックマークに追加 102 users Instapaper Pocket Tweet Facebook Share Evernote Clip Connecting the dots Delta 経緯

はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta L... 続きを読む

[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! | DevelopersIO

2021/08/07 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip ORC DevelopersIO CSV JSON出力 石川

[新機能] Amazon Athena UNLOADコマンドによるCSV、Parquet、Avro、ORC、JSON出力をサポートしました! データアナリティクス事業本部コンサルティングチームの石川です。先日、Amazon Athenaが、UNLOADコマンドをサポートしました。SELECTクエリの結果をCSV、Parquet、Avro、ORC、JSONフォーマットでS3出力できるように... 続きを読む

ゆずソフト、全年齢向けブランド「ゆずソフトSOUR」発表。ノベルゲーム『PARQUET』をSteamなどで配信へ | AUTOMATON

2021/07/30 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip AUTOMATON ノベルゲーム パルケ Steam 配信

国内の美少女ゲームメーカーゆずソフトは7月30日、全年齢ブランド「ゆずソフトSOUR」および同ブランドのデビュー作『PARQUET(パルケ)』を発表した。対応プラットフォームはPC(Steam/DMM GAMES/DL Site)/iOS/Androidで、価格は2500円。DMM GAMESおよびDL Siteでは7月31日0時から配信開始予定。また、PC(Steam)/iOS/... 続きを読む

(翻訳)2017年の展望: pandas, Arrow, Feather, Parquet, Spark, Ibis - Qiita

2017/02/26 このエントリーをはてなブックマークに追加 177 users Instapaper Pocket Tweet Facebook Share Evernote Clip IBIS Feather Qiita Spark 展望

始めに:pandasの作者であるWes McKinneyさんがPythonのデータツール関連でとても興味深いblogを書かれているので、翻訳して日本のPyDataコミュニティに公開してもいいでしょうか、とお聞きしたところ、快諾をいただきましたので少しずつ訳して公開していこうと思っています。 (原文: http://wesmckinney.com/blog/outlook-for-2017/) 20... 続きを読む

大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース。メモリコンフィグレーションの自動化、静的型付けのDataset API、速度の向上も実現 - Publickey

2016/01/06 このエントリーをはてなブックマークに追加 25 users Instapaper Pocket Tweet Facebook Share Evernote Clip Publickey データフォーマット Spark 速度 向上

Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒あたり290万行の読み込み速度だったものを1秒あたり450万行まで、約50%改善したと説明されています。 また、1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ... 続きを読む

Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開 - Publickey

2013/09/03 このエントリーをはてなブックマークに追加 64 users Instapaper Pocket Tweet Facebook Share Evernote Clip Twitter Publickey Hadoop ストレージ

データを列方向に格納することで読み出し性能を向上し、高速な分析を実現する技術は、「カラム型データベース」「カラムナーストレージ」「カラム型データストア」などと呼ばれて注目されています。その技術をHadoopのストレージに持たせることで、Hadoopでもさらに高速な分析を可能にする「Parquet」バージョン1.0を、Twitterがオープンソースで公開しました。 公開したのは7月30日と1カ月ほど... 続きを読む

/var/log/oza.log: RCFile,Parquet,ORCFile

2013/03/18 このエントリーをはてなブックマークに追加 44 users Instapaper Pocket Tweet Facebook Share Evernote Clip log var Cloudera oza.log ゴー

Mar 18, 2013 RCFile,Parquet,ORCFile この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コー... 続きを読む

 
(1 - 8 / 8件)