タグ 欠損値
人気順 10 users 50 users 100 users 500 users 1000 users[pandas超入門]欠損値とその処理
前回はpandasのDataFrameオブジェクトをNumPyの多次元配列やPythonのリスト、辞書、JSON形式のオブジェクトに変換する方法を紹介しました。今回は、pandasでデータを処理する際には必ずと言っていいほど目にする「欠損値」とその扱いについて見ていきます。 欠損値とは 欠損値とは、取得したデータに含まれる「何らかの... 続きを読む
「初手LightGBM」をする7つの理由 - u++の備忘録
Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。 本記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、ご参考までにご覧いただければと思います。 1. 欠損値をそのま... 続きを読む
データに欠損がある場合の教師あり学習 - 作って遊ぶ機械学習。
2017 - 08 - 30 データに欠損がある場合の教師あり学習 おはようございます. 今回は教師あり学習モデルを題材に, 入力データが欠損している場合の ベイズ 流の対処法 を解説します. ベイズ モデルというと,たいていの場合は事前分布の設定の仕方云々だとか, 過学習 を抑制できるだとかに議論が注目されがちですが,個人的には, パラメータや潜在変数を推論することとまったく同じ枠組みで欠損値も... 続きを読む
Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
2016 - 02 - 01 Python pandas 欠損値/外れ値/離散化の処理 Python pandas 前処理 データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」にはそういった前処理のうち、欠損などデータ特性の考慮が必要なものについて その対処方法とあわせて詳しく記載されている。 が、書籍のサンプルは R なので、 Python でどうやればよいかよく分からない。同じこ... 続きを読む
BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita
最近、bigqueryの評価を行っている。本番向けのデータではよくあることだが、本来データが入る場所にnullが入っていたり、要素が無かったり、逆に要素が多かったりする。 bigqueryはTreasureDataの様にスキーマレスではなくきちんとスキーマを定義しなければならない。 bigqueryでは、スキーマの定義にjsonを使い、データのロードにもjsonを使うため、要素にミスマッチが発生す... 続きを読む