タグ「DataFrame」 - はてブログ

タグ DataFrame

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 6 / 6件)

PythonでDataFrameを省メモリに縦横変換する - MicroAd Developers Blog

2019/05/10 58 users pandas 縦横 Python マイクロアド関数

マイクロアドの京都研究所で機械学習エンジニアをしている田中です。機械学習を利用したユーザーの行動予測の研究開発などを担当しています。今回は、データの前処理に関するお話をしたいと思います。データの縦横変換縦横変換するためのpandasの関数省メモリに縦横変換するサンプルデータの準備 pandas.Categoric... 続きを読む

Python: pandas-profiling でデータセットの概要を確認する - CUBE SUGAR CONTAINER

2018/10/30 30 users EDA pandas サマリー相関係数 Python

今回は pandas-profiling というパッケージを使ってみる。このパッケージを使うと pandas の DataFrame に含まれる各次元の基本的な統計量や相関係数などを一度に確認できる。最初にデータセットのサマリーを確認できると、その後の EDA (Exploratory Data Analysis: 探索的データ分析) の取っ掛かりにしやすいと思う... 続きを読む

feather - pandasの読み書きを高速化 - 加具留矢流余

2018/07/11 21 users Feather pandas Kaggle カラム読み書き

kaggleに参加して巨大なCSVファイルを読み書きしていると、それだけで数分近くかかってしまうことがある。そこで紹介されていたfeatherというDataFrame保存用ライブラリを使ってみた。 featherはpandasのDataFrameを高速に保存、ロードするために開発されたApache Arrowのpythonラッパーだ。 Apache Arrow特有のカラム... 続きを読む

pandas DataFrameを省メモリにpickleする - ABEJA Tech Blog

2017/02/20 24 users 省メモリ ABEJA Tech Blog pandas 千葉

2017 - 02 - 20 pandas DataFrameを省メモリにpickleする Tweet ABEJAでデータエンジニアをしています、千葉です。少し前に、pandasのDataFrameをファイルに読み書きする際にメモリを消費しすぎる問題を発見したので、解決策を含めて紹介します。通常手法の紹介通常、DataFrameをファイルに保存する際には、pandasの提供する IOモジュー... 続きを読む

Python xray で多次元データを pandas ライクに扱う - StatsFragments

2015/07/26 43 users pandas StatsFragments 次元表形式以下

2015-07-26 Python xray で多次元データを pandas ライクに扱う pandas Python 前処理はじめに pandas では 2 次元、表形式のデータ ( DataFrame ) を主な対象としているが、ときには 3 次元以上のデータを扱いたい場合がある。そういった場合以下のような方法がある。 MultiIndex を使い、2 次元のデータにマッピングする。 3... 続きを読む

簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments

2015/04/26 37 users pandas StatsFragments PySpark

2015-04-26 簡単なデータ操作を PySpark & pandas の DataFrame で行う pandas 前処理 Python Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りやよりよい... 続きを読む

(1 - 6 / 6件)