タグ DataFrame
人気順 5 users 50 users 100 users 500 users 1000 usersPythonでDataFrameを省メモリに縦横変換する - MicroAd Developers Blog
マイクロアドの京都研究所で機械学習エンジニアをしている田中です。 機械学習を利用したユーザーの行動予測の研究開発などを担当しています。 今回は、データの前処理に関するお話をしたいと思います。 データの縦横変換 縦横変換するためのpandasの関数 省メモリに縦横変換する サンプルデータの準備 pandas.Categoric... 続きを読む
Python: pandas-profiling でデータセットの概要を確認する - CUBE SUGAR CONTAINER
今回は pandas-profiling というパッケージを使ってみる。 このパッケージを使うと pandas の DataFrame に含まれる各次元の基本的な統計量や相関係数などを一度に確認できる。 最初にデータセットのサマリーを確認できると、その後の EDA (Exploratory Data Analysis: 探索的データ分析) の取っ掛かりにしやすいと思う... 続きを読む
feather - pandasの読み書きを高速化 - 加具留矢流余
kaggleに参加して巨大なCSVファイルを読み書きしていると、それだけで数分近くかかってしまうことがある。 そこで紹介されていたfeatherというDataFrame保存用ライブラリを使ってみた。 featherはpandasのDataFrameを高速に保存、ロードするために開発されたApache Arrowのpythonラッパーだ。 Apache Arrow特有のカラム... 続きを読む
pandas DataFrameを省メモリにpickleする - ABEJA Tech Blog
2017 - 02 - 20 pandas DataFrameを省メモリにpickleする Tweet ABEJAでデータエンジニアをしています、千葉です。 少し前に、pandasのDataFrameをファイルに読み書きする際にメモリを消費しすぎる問題を発見したので、解決策を含めて紹介します。 通常手法の紹介 通常、DataFrameをファイルに保存する際には、pandasの提供する IOモジュー... 続きを読む
Python xray で 多次元データを pandas ライクに扱う - StatsFragments
2015-07-26 Python xray で 多次元データを pandas ライクに扱う pandas Python 前処理 はじめに pandas では 2 次元、表形式のデータ ( DataFrame ) を主な対象としているが、ときには 3 次元以上のデータを扱いたい場合がある。そういった場合 以下のような方法がある。 MultiIndex を使い、2 次元のデータにマッピングする。 3... 続きを読む
簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments
2015-04-26 簡単なデータ操作を PySpark & pandas の DataFrame で行う pandas 前処理 Python Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが 自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りや よりよい... 続きを読む