タグ StatsFragments
人気順 5 users 50 users 100 users 500 users 1000 userspandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで Wor... 続きを読む
Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
2016 - 02 - 01 Python pandas 欠損値/外れ値/離散化の処理 Python pandas 前処理 データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」にはそういった前処理のうち、欠損などデータ特性の考慮が必要なものについて その対処方法とあわせて詳しく記載されている。 が、書籍のサンプルは R なので、 Python でどうやればよいかよく分からない。同じこ... 続きを読む
Python Dask で Out-Of-Core / 並列 LU 分解 - StatsFragments
2016 - 01 - 23 Python Dask で Out-Of-Core / 並列 LU 分解 Dask Python はじめに 正方行列 を となる下三角行列 と 上三角行列 に分解することを LU 分解という。LU 分解ができると 連立方程式 の解や 逆行列 が 前進 /後退代入でかんたんに求められてうれしい。 Dask を使って LU 分解を Out-Of-Core / 並列でやりた... 続きを読む
Python Jupyter + Cesium.js で 3D 地図が描きたい - StatsFragments
2015 - 12 - 27 Python Jupyter + Cesium.js で 3D 地図が描きたい Python 可視化 Cesium.js とは Web GL を利用して 3D 地図を描画する JavaScript ライブラリ。かなり多機能で様々な見せ方ができるようだ。詳しく知りたい方は公式サイトの Demos を見ればいい。 cesiumjs.org これを Jupyter Note... 続きを読む
Chainer + Dask で 並列 Deep Learning したい <1> - StatsFragments
2015 - 12 - 17 Chainer + Dask で 並列 Deep Learning したい <1> Deep Learning Python Dask Chainer この記事は Chainer Advent Calendar 2015 17 日目の記事です。 はじめに サイズが大きいデータを Deep Learning すると学習に時間がかかってつらい。時間がかかってつらいので並列... 続きを読む
Python Dask.Array で 並列 / Out-Of-Core 処理 - StatsFragments
2015 - 12 - 13 Python Dask.Array で 並列 / Out-Of-Core 処理 Dask 前処理 この記事は Python Advent Calendar 2015 13 日目の記事です。 Python で手軽に並列 / Out-Of-Core 処理を行うためのパッケージである Dask について書きたい。 Dask を使うと以下のようなメリットが得られる。 環境構築... 続きを読む
{purrr} でリストデータを操作する <1> - StatsFragments
2015-11-26 {purrr} でリストデータを操作する <1> R 前処理 R で関数型プログラミングを行うためのパッケージである {purrr}、すこし使い方がわかってきたので整理をしたい。RStudio のブログの記載をみると、とくにデータ処理フローを関数型のように記述することが目的のようだ。 purrr 0.1.0 | RStudio Blog The core of purrr i... 続きを読む
Python pandas プロット機能を使いこなす - StatsFragments
2015-11-15 Python pandas プロット機能を使いこなす pandas Python 可視化 pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基本的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Plotting — pandas 0.17.0 documentation これらの機能は m... 続きを読む
岩波データサイエンス Vol.1 - StatsFragments
2015-10-18 岩波データサイエンス Vol.1 R Stan Python ご恵贈いただきました。 ありがとうございます! あわせてタスクもいただきました (下部)。 書籍のコンテンツ 各章ごとの内容は id:sfchaos さんが詳しく紹介されています。 d.hatena.ne.jp まだ すべて読めていないのですが、以下 3 点がよいポイントだと思います。 理論 と サンプルプログラム... 続きを読む
pandas 0.17.0 の主要な変更点 - StatsFragments
2015-10-17 pandas 0.17.0 の主要な変更点 pandas Python 先日 10/9 に pandas 0.17.0 がリリースされた。直近のバージョンアップの中では かなり機能追加が多いリリースとなった。 重要な変更は リリースノート にハイライトとして列挙しているのだが、これらはある程度 pandas を使いこなしている方向けの記載となっている。 そのため、ここでは よ... 続きを読む
Python XGBoost + pandas 連携の改善 - StatsFragments
2015-10-03 Python XGBoost + pandas 連携の改善 Python XGBoost pandas 一部 こちらの続き。その後 いくつかプルリクを送り、XGBoost と pandas を連携させて使えるようになってきたため、その内容を書きたい。 sinhrks.hatenablog.com できるようになったことは 以下 3 点。 DMatrix でのラベルと型の指定 ... 続きを読む
Python Dask で 並列 DataFrame 処理 - StatsFragments
2015-09-24 Python Dask で 並列 DataFrame 処理 Python pandas Dask はじめに 先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も... 続きを読む
Python 次世代の多次元配列パッケージ群 - StatsFragments
2015-09-22 Python 次世代の多次元配列パッケージ群 Python このところ、たびたび NumPy 後継が...とか 並列処理が...という話を聞くので、この秋 注目の多次元配列パッケージをまとめたい。 バックエンド系 NumPy のように数値計算処理を自前で実装しているパッケージ。 DyND Blaze プロジェクトのひとつ。C++ 実装 + Python バインディング。Git... 続きを読む
NumPy でつくる俺々データ構造 - StatsFragments
2015-09-21 NumPy でつくる俺々データ構造 Python はじめに Python での数値計算の基盤をなす NumPy 、直感的なスライスやブロードキャスト、関数のベクトル適用など大変便利だ。 import numpy as np np.__version__ # '1.9.2' np.array([1, 2, 3]) # array([1, 2, 3]) np.array([1, ... 続きを読む
Python でパイプ演算子を使いたい - StatsFragments
2015-09-20 Python でパイプ演算子を使いたい pandas Python ネタ記事です。/ This is a joke post which makes no practical sense. はじめに pandas では主要な操作を以下のようにメソッドチェインの形で書くことができる。 df.assign(x=df['y'] + df['z']).groupby('x').sum... 続きを読む
Python XGBoost の変数重要度プロット / 可視化の実装 - StatsFragments
2015-08-27 Python XGBoost の変数重要度プロット / 可視化の実装 Python Gradient Boosting Decision Tree の C++ 実装 + 各言語のバインディングである XGBoost、かなり強いらしいという話は伺っていたのだが自分で使ったことはなかった。こちらの記事で Python 版の使い方が記載されていたので試してみた。 xgboost p... 続きを読む
Python xray で 多次元データを pandas ライクに扱う - StatsFragments
2015-07-26 Python xray で 多次元データを pandas ライクに扱う pandas Python 前処理 はじめに pandas では 2 次元、表形式のデータ ( DataFrame ) を主な対象としているが、ときには 3 次元以上のデータを扱いたい場合がある。そういった場合 以下のような方法がある。 MultiIndex を使い、2 次元のデータにマッピングする。 3... 続きを読む
Python geopandas + Bokeh で地理情報をプロットしたい - StatsFragments
2015-07-18 Python geopandas + Bokeh で地理情報をプロットしたい pandas Python 可視化 数日前、pandas を利用して地理情報をプロットするという非常によいエントリが翻訳されていた。 PythonとQGISを使って地理空間を可視化する – UFO目撃情報でのケーススタディ | プログラミング | POSTDpostd.cc 上のエントリ、前処理が手... 続きを読む
Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments
2015-07-11 Python pandas パフォーマンス維持のための 3 つの TIPS pandas Python pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のための方法として Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 do... 続きを読む
Chainer で Deep Learning: Bokeh で Live Monitoring したい - StatsFragments
2015-07-09 Chainer で Deep Learning: Bokeh で Live Monitoring したい Chainer 可視化 Deep Learning Python 概要 Deep Learning の学習には時間がかかるため、進捗が都度 確認できるとうれしい。その際、テキストのログ出力では味気ないので、リアルタイムでプロットを眺めたい (Live Monitoring... 続きを読む
Chainer で Deep Learning: model zoo で R-CNN やりたい - StatsFragments
2015-07-05 Chainer で Deep Learning: model zoo で R-CNN やりたい Python Deep Learning Chainer ニューラルネットワークを使ったオブジェクト検出の手法に R-CNN (Regions with CNN) というものがある。簡単にいうと、R-CNN は以下のような処理を行う。 入力画像中からオブジェクトらしい領域を検出し切... 続きを読む
Python pandas データのイテレーションと関数適用、pipe - StatsFragments
2015-06-18 Python pandas データのイテレーションと関数適用、pipe pandas Python pandas ではデータを 列 や 表形式のデータ構造として扱うが、これらのデータから順番に値を取得 (イテレーション) して何か操作をしたい / また 何らかの関数を適用したい、ということがよくある。このエントリでは以下の 3 つについて整理したい。 イテレーション 関数適用... 続きを読む
Python pandas のデータを Highcharts/Highstock + Jupyter でプロットしたい - StatsFragments
2015-06-13 Python pandas のデータを Highcharts/Highstock + Jupyter でプロットしたい pandas Python 可視化 R を使っている方はご存知だと思うが、R には {htmlwidgets} というパッケージがあり、R 上のデータを任意の Javascript ライブラリを使ってプロットすることが比較的カンタンにできる。{htmlwid... 続きを読む
Python spyre によるデータ分析結果のWebアプリ化 - StatsFragments
2015-06-13 Python spyre によるデータ分析結果のWebアプリ化 Python 可視化 R を使っている方はご存知だと思うが、R には {Shiny} というパッケージがあり、データ分析の結果を インタラクティブな Web アプリとして共有することができる。{Shiny} って何?という方には こちらの説明がわかりやすい。 RStudio Shiny チュートリアル レッスン1... 続きを読む
R で 状態空間モデル: 状態空間時系列分析入門を {rstan} で再現したい - StatsFragments
2015-05-28 R で 状態空間モデル: 状態空間時系列分析入門を {rstan} で再現したい 時系列分析 R Stan 前の記事でもリンクさせていただいているが、サイト 「状態空間時系列分析入門」をRで再現する では以下のテキストを {dlm}, {KFAS} で再現されており非常にありがたい。これらのライブラリの使い方については リンク先を読めば困らない感じだ。 自分も勉強のために似た... 続きを読む