タグ 解析日記
人気順 5 users 50 users 100 users 500 users 1000 usersマレーシア航空旅客機の衛星画像をビッグデータ解析 - iAnalysis 〜おとうさんの解析日記〜
マレーシア航空のいろんな話題が飛び交っている中、Twitterで「【助けて】全世界のインターネットユーザーに協力を呼びかけ! この写真から「消息を絶ったマレーシア航空の旅客機」を見つけてください」という記事を見つけました。 衛星写真の画像が大量にあるので、人海戦術で破片を見つけよう、という趣旨です。私は分析屋なので、データサイエンスを使って手助けできないか?と思い、少し分析してみました。何かの一助... 続きを読む
RでDeep Learningの一種をやってみる - iAnalysis 〜おとうさんの解析日記〜
このブログのTips052で、RでDeep Learningをやっているのを紹介してもらったので、自分も試してみました。「Deep Learningすげぇ!!」という話は良く聞くのですが、亜種がいっぱいあるみたいで、まだあまり調査しきれてません。また時間があれば調査してまとめられると良いのですが。以下、RでDA(Denoising Autoencoders)を実行するプログラムです。 sigmoi... 続きを読む
MapReduceできる10個のアルゴリズム - iAnalysis 〜おとうさんの解析日記〜
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています... 続きを読む
一年で身に付ける!Rと統計学・機械学習の4ステップ - iAnalysis 〜おとうさんの解析日記〜
久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定理論統計学入門 (基礎統計学)... 続きを読む
メモ:大量データをプロットするときの濃淡プロット - iAnalysis 〜おとうさんの解析日記〜
データが多くなってくると散布図が真っ黒になってしまうので、濃淡を付けることでどこに集中しているかが分かります。マイクロアレイ系でよく使われる Bioconductorというプロジェクトのパッケージを使うので、通常のパッケージをインストール方法が違います。 インストール source("http://www.bioconductor.org/biocLite.R") biocLite("prada"... 続きを読む
データマイニングで使われるトップ10アルゴリズム - iAnalysis 〜おとうさんの解析日記〜
2008年のデータマイニング学会、IEEE ICDMで選ばれたデータマイニングで使われるトップ10アルゴリズムに沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は論文をご確認下さい。また、データマイニングの全体観をサーベイした資料がありますので、こちらも併せて... 続きを読む
統計学の読み物&海外ドラマ - Issei’s Analysis 〜おとうさんの解析日記〜
ツイッターで統計学の読み物を教えて欲しいと言われましたので、今まで眺めてきた本の中から3冊紹介したいと思います。 読み物統計学を拓いた異才たち―経験則から科学へ進展した一世紀作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生出版社/メーカー: 日本経済新聞社発売日: 2006/03メディア: 単行本購入: 11人 クリック: 159回この商品を含むブログ (8... 続きを読む
Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、初めから備わっている基本関数が間違っていることはほぼありません。近年では行政機関で使われているという事例もちらほら聞きます。・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入... 続きを読む
仕事で統計解析を行っている方は必読のデータマイニング本 - Issei’s Analysis 〜おとうさんの解析日記〜
久々の更新です。前々から注目していた『Data Mining and Statistics for Decision Making』が届きました。ちょっと読んだだけでも、ここ数年で一番の応用本だと感じました。単なる応用本ではなく、解析やデータマイニングがビジネスに利用されることを非常に強く意識されている内容です。 Data Mining and Statistics for Decision Ma... 続きを読む
統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis 〜おとうさんの解析日記〜
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているみたいです。IBMは分析ができる人材を4,000人増やすと言っています(同記事)。分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が学べる本はまだあまり見かけないです。そ... 続きを読む
Rで多変量解析(一般化線形モデル)〜タイタニックのデータも分析しました〜 - Issei’s Analysis 〜おとうさんの解析日記〜
今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」... 続きを読む
MCMC(Markov Chain Monte Carlo、マルコフ連鎖モンテカルロ法)について - Issei’s Analysis 〜おとうさんの解析日記〜
今日はMCMC法についての解説です。メモ程度のものですが、ご参考になれば幸いです。日本語の良本はこれ。マルコフ連鎖モンテカルロ法 (統計ライブラリー)作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2008/05メディア: 単行本購入: 9人 クリック: 39回この商品を含むブログ (12件) を見る 有名な解説論文:Sampling-Based Approaches to Calculat... 続きを読む