タグ 前処理
人気順 5 users 10 users 100 users 500 users 1000 usersデータ分析の基礎 - Qiita
1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見す... 続きを読む
世界初、分析ツールnehanにPythonコード出力機能登場。プログラミング不要でプログラムを作れる!?|株式会社nehanのプレスリリース
株式会社nehanは、プログラミング不要の分析ツールnehan上にて、作成した分析プロセスをPythonコードとして出力できる機能の提供を開始いたしました。 分系ツールnehanは「"データ分析は前処理の時間が8割"の常識を覆す」をテーマに、プログラミング不要で様々な分析業務を可能にするサービスです。 2019年5月の提供開始... 続きを読む
実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|若手Webエンジニアのキャリアを考える!
データサイエンティストとしてのスキルを向上させるには、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、広域にわたる知識を身に付ける必要があります。 この記事は、そうした知識を「サンプルコードと図表を見ながら、分かりやすく学習できること」を目指して作成されました。記事... 続きを読む
PythonでDataFrameを省メモリに縦横変換する - MicroAd Developers Blog
マイクロアドの京都研究所で機械学習エンジニアをしている田中です。 機械学習を利用したユーザーの行動予測の研究開発などを担当しています。 今回は、データの前処理に関するお話をしたいと思います。 データの縦横変換 縦横変換するためのpandasの関数 省メモリに縦横変換する サンプルデータの準備 pandas.Categoric... 続きを読む
pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチュー... 続きを読む
自然言語処理の前処理・素性いろいろ - Debug me
2018 - 05 - 29 自然言語処理の前処理・素性いろいろ MeCab 機械学習 自然言語処理 ちゃお・・・† 舞い降り・・・† 先日、前処理大全という本を読んで影響を受けたので、今回は 自然言語処理 の前処理とついでに素性の作り方を Python コードとともに列挙したいと思います。必ずしも全部やる必要はないので適宜使ってください。 前処理大全[データ分析のためのSQL/R/Python実... 続きを読む
機械学習の前に重要なデータ抽出・加工に便利なPythonライブラリ「pandas」の基本的な使い方のチュートリアル:Pythonで始める機械学習入門(6) - @IT
Pythonで始める機械学習入門(6): 機械学習の前に重要なデータ抽出・加工に便利なPythonライブラリ「pandas」の基本的な使い方のチュートリアル (1/4) 最近流行の機械学習/Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ/ツールの使い方を中心に解説する連載。今回は、データ分析の前処理などで便利に使えるオープンソースソフ... 続きを読む
Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
2016 - 02 - 01 Python pandas 欠損値/外れ値/離散化の処理 Python pandas 前処理 データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」にはそういった前処理のうち、欠損などデータ特性の考慮が必要なものについて その対処方法とあわせて詳しく記載されている。 が、書籍のサンプルは R なので、 Python でどうやればよいかよく分からない。同じこ... 続きを読む
数独を解く(画像解析) - cuspy diary
画像として与えられた数独を解きます。 新聞に掲載されていたこの問題をOpenCVを使って画像解析する。(画像が斜めなのはワザとです) グレースケール変換 画像解析の前処理として、まずグレースケールに変換し、ガウシアンフィルタをかけてぼかします。ガウシアンフィルタをかける事で、安定した二値化が画像が得られます。1 二値化 次に二値化を行います。 二値化には、普通の方法、大津さんの手法、適応的二値化、... 続きを読む