タグ Mi manca qualche giovedi
人気順 10 users 50 users 100 users 500 users 1000 users「調査観察データの統計科学」読書会資料を公開しました(数式周りをフォロー) - Mi manca qualche giovedi`?
傾向スコア, 因果効果因果推論、特に傾向スコアについて日本語で学ぼうとしたら、第一に名前が挙がるのは「調査観察データの統計科学」だろう。調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) | 星野 崇宏 | 本 | Amazon.co.jpところがこの本、数式を中心に難が多く、読み始めたはいいけど困っているという人がかなり多そうだ。実は社内の機械学習勉強会で... 続きを読む
「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について - Mi manca qualche giovedi`?
ぞくパタ, ノンパラベイズ昨日の「続・わかりやすいパターン認識」読書会にて、「ホップの壺や中華料理店過程のシミュレーションをみると、これを使うと均等にクラスタリングされるのではなく、クラスタサイズが大きいものから順に小さくなっていくようなクラスタリングがされるように見えるのだが、その認識で正しいのか」といった感じの質疑があった。いい質問。 実は「続・わかりやすいパターン認識」(以降「ぞくパタ」)で... 続きを読む
「続・わかりやすいパターン認識」の8章「隠れマルコフモデル」の問題点 2つ #ぞくパタ - Mi manca qualche giovedi`?
ぞくパタ, 読書会, HMM昨日は ぞくパタ読書会 にのこのこ行ってきた。主催者、発表者、参加者の皆さん、会場を提供してくださったドワンゴさんに感謝。 「続・わかりやすいパターン認識」(以降「ぞくパタ」)の8章「隠れマルコフモデル」を読んだわけだが、この章には理解のさまたげになりうる問題点が大きく2つあると感じた。 自明ではない条件付き独立性を、言及なく使っている ビタービアルゴリズムで求める ψ... 続きを読む
「調査観察データの統計科学」3.1章 傾向スコアの数式メモ(前半) - Mi manca qualche giovedi`?
因果効果, 傾向スコア みどりぼん(「データ解析のための統計モデリング入門」)を読み終わったから、というわけではないが、同じ岩波・確率と情報の科学シリーズの「調査観察データの統計科学」(星野崇宏)を読んでいる。Amazon.co.jp: 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学): 星野 崇宏: 本社内で週一開催している勉強会の自分の担当回でもこの「... 続きを読む
第4回 #DSIRNLP で Active Learning 入門について話しました - Mi manca qualche giovedi`?
勉強会, 機械学習@overlast さん主宰の データ構造と情報検索と言語処理勉強会(DSIRNLP) の第4回にのこのこ参加して、Active Learning 入門なるものを発表してきました。お疲れ様でした&ありがとうございました>各位 第4回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - PARTAKE こちらが発表資料。 Active Learning 入門 from Sh... 続きを読む
Active Learning を試す(Uncertainly Sampling 編) - Mi manca qualche giovedi`?
機械学習, 能動学習教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデルの性能向上を測るアプローチの1つ。具体的には、正解なしデータの中から「こいつの正解がわかれば、モデルが改善する」... 続きを読む
Knerser-Ney スムージングによる文書生成 - Mi manca qualche giovedi`?
言語モデル, 文書生成, 言語処理少し前に Knerser-Ney スムージングの性能を測ってみた記事 を書いたが、今回は Knerser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行... 続きを読む
PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - Mi manca qualche giovedi`?
PRML, 機械学習, 文芸部, あとでよむ放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。振り返ってその先客をよく眺めると、ツインテールの頭をどこか見... 続きを読む
Kneser-Ney Smoothing を試してみた - Mi manca qualche giovedi`?
言語処理Kneser-Ney Smoothing は高性能な言語モデルである。と、よく聞かされて知っているつもりだけど、まだ一度も試したことがなかったので、試してみた。ソースはここ。https://github.com/shuyo/iir/blob/master/ngram/knsmooth.py実験用にべったり書いているのでコピペは多いし、速度やメモリの効率も悪いが、まあ気にしないで。 コーパス... 続きを読む
機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml - Mi manca qualche giovedi`?
ノンパラベイズ, 機械学習11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼をいただいた時、言語判定の話をすればいいか〜とか考えて気楽に引き受けちゃったのだが、あれを20分で話す... 続きを読む
「プログラマが本当に理解するには実装しないといけない」か - Mi manca qualche giovedi`?
PRMLジュンク堂池袋本店にて 10/11 に行われた「パターン認識と機械学習」(PRML) 愛好家の集まり、じゃあなかった、トークセッションにのこのこ行ってきた、ばかりか前でしゃべってきた。ありがとうございました&お疲れ様でした>各位 PRML同人誌 『パターン認識と機械学習の学習』(暗黒通信団) 刊行記念トークセッション 「今度こそわかる!? PRMLの学習の学習」http://www.jun... 続きを読む
PRML の読む章・飛ばす章(私家版) - Mi manca qualche giovedi`?
PRML, 読書会来たる 10/11 にジュンク堂池袋本店にて、「パターン認識と機械学習」(PRML) および「パターン認識と機械学習の学習」(PRML 同人誌)のトークイベントが開かれる。 PRML同人誌 『パターン認識と機械学習の学習』(暗黒通信団) 刊行記念トークセッション 「今度こそわかる!? PRMLの学習の学習」http://www.junkudo.co.jp/tenpo/evtalk... 続きを読む
NAIST で twitter 言語判定について発表してきました - Mi manca qualche giovedi`?
言語判定, 自然言語処理5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。その時の資料を公開します。内容は TokyoNLP #8 や言語処理学会2012@広島市大で発表したものをちょっと丁寧に+αした感じ。 Short Text Language Detection with... 続きを読む
TAKESAKO @ Yet another Cybozu Labs: サイボウズ・ラボユースを1年間やってみてわかったこと
サイボウズ・ラボユース 2011年度 活動報告 View more presentations from takesako サイボウズ・ラボユースとは、2011年から始めた学生支援制度で、詳細は…中谷さんによる解説サイボウズ・ラボユースってなに? - Mi manca qualche giovedi`?が詳しいです。 一部、引用すると: サイボウズ・ラボユースで「何をやってもらう」か。 実は設問が... 続きを読む
WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - Mi manca qualche giovedi`?
WebDB Forum, 本文抽出昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani こ... 続きを読む
Island Life - O(n^2)正規表現
O(n^2)正規表現 Javaで、 /[-_.0-9A-Za-z]+@[-_0-9A-Za-z]+[-_.0-9A-Za-z]+/ という正規表現のマッチが 入力文字列長nに対してO(n^2)かかるのはエンジンがNFAのせいって話なんだけれど、 これNFA関係無くないかな。 メールアドレスの正規表現がめちゃめちゃ遅くなることがある件について - Mi manca qualche giovedi? ... 続きを読む
第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました - Mi manca qualche giovedi`?
numpy, python, 機械学習10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を numpy に落としこむコツ 〜機械学習を題材に〜」なんてタイトルで、数式(あるいは数式入... 続きを読む
ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool) - Mi manca qualche giovedi`?
NLP, 自然言語処理, twitterEMNLP 2011 でひときわ目を引くタイトル "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。Cooo... 続きを読む
PRML 4.1 の最小二乗法&フィッシャーの線形判別を試してみた - Mi manca qualche giovedi`?
PRML, 機械学習社内でやってる PRML 読書会が4章に入って、Fisher の線形判別分析(LDA)とかをちょうどやっつけたところ。で、4.1.5 で Fisher's LDA と「最小二乗との関連」をわざわざ述べているのはどうして? というあたりで、最小二乗と互換性があるということはそれだけで理論的裏付けになるし(分散最小化)、あるいは(もしも)確率化したいときに加法性のガウスノイズを想定... 続きを読む
Latent Dirichlet Allocations in Python - Mi manca qualche giovedi`?
自然言語処理, 機械学習, LDALDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定する... 続きを読む
自然言語処理(機械学習) vs エンジニア - Mi manca qualche giovedi`?
自然言語処理, 機械学習1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが本当にとてもおもしろかった。Togetter でのまとめがこちら。 Togetter - 「NL研 #signl200 まとめ(その2)」 単語のいくつかは残念ながらわからないが(笑)、「自然言語処理も機械学習... 続きを読む
Firefox 拡張機能の「開発とっかかり」のチュートリアル - Mi manca qualche giovedi`?
id:n_shuyo:20070118:firefox にても書いたが、チュートリアルがないために Firefox 拡張開発の敷居が高くなってしまっているんじゃないかと感じている。XUL とかは人に説明できるほど詳しくないが、「開発の始め方」のチュートリアルであれば自分にも書けそう。ということで以下にさっくりまとめてみた。より詳しい人が突っ込んでくれてさらに親切なものになると嬉しい。 ★★2/8 ... 続きを読む