タグ nokuno
人気順 5 users 50 users 100 users 500 users 1000 usersmixi Engineers' Seminar #3 に参加しました #mixi_engineers - nokunoの日記
mixi Engineers’ Seminar #3 : ATND 機械学習の基礎と評判分析 by 高村大也 自己紹介 東工大のすずかけ台キャンパスにいます! 「すずかけ台には良い教授がたくさんいる」はポジティブと評判分析 著書:Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ): 高村 大也, 奥村 学: 本 概要 コンテンツを入手→前処理→分類器→出力 前処理:... 続きを読む
テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記
個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたので... 続きを読む
Social IMEの共有辞書を公開しました - nokunoの日記
表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニン... 続きを読む
全文検索エンジンgroongaを囲む夕べ2 #groonga - nokunoの日記
groongaのイベントでVOYAGE GROUPさんに行って来ました!全文検索エンジンgroongaを囲む夕べ 2 #groonga : ATND「検索エンジンはなぜ見つけるのか」と著者の森大二郎さんのサインいただきました!Amazon.co.jp: 検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識: 森大二郎: 本 groonga村 須藤さん 最新版リリースされました ... 続きを読む
第8回自然言語処理@東京を開催しました #TokyoNLP - nokunoの日記
はい,本日は勤労に感謝しつつ第8回自然言語処理@東京を開催しました.場所はVOYAGE GROUP(旧ECナビ)で,懇親会もお世話になりました,@ajiyoshiさんいつもありがとうございます!第8回自然言語処理勉強会 #TokyoNLP : ATND トピックモデルとその周辺の話題 by @issei_sato さん Topic models with power-law using Pitma... 続きを読む
米スタンフォード大が機械学習と人工知能に続き,自然言語処理と確率モデルの講義を一般公開 - nokunoの日記
表題の通り,米スタンフォード大が自然言語処理と確率モデルの講義のオンライン公開を始めるようです.Natural Language ProcessingProbabilistic Graphical ModelsNLPを担当するManning先生は,この分野では知らぬものはいない教科書「Foundation of Statistical Natural Language Processing」の著者... 続きを読む
入門ソーシャルデータが発売されます - nokunoの日記
オライリー出版社さんから,「入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック」というタイトルでソーシャルデータを対象としたデータマイニング,自然言語処理の書籍が発売されます.リンク先の通り,私も監訳という形で編集に参加させていただいております(五十音順で一番前に来てますが他意はありません).入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニックO’Reilly J... 続きを読む
Mozcの辞書圧縮の論文を読んだ - nokunoの日記
Mozcの辞書圧縮の論文を読みました.IMEはクライアントPCで動くし常駐するので消費メモリを小さくしようという話です.Efficient dictionary and language model compression for input method editors内容的にはNLP2011で聞いた話+接続コストのキャッシュの実験を追加したものになっています.最終的なサイズと内訳は以下のようにな... 続きを読む
ルールベースから機械学習へ移行すべきタイミング - nokunoの日記
自然言語処理において機械学習が用いられるのは,ルールベースでやっていた処理の管理が難しくなってきたときだと言われています.それでは,具体的にルールベースから機械学習へ移行すべきタイミングはいつなのか,という問題について考えました. ルールの数が数十〜数百個を超えたとき ルールに優先順位があって管理が難しくなったとき ルール同士が矛盾していて曖昧性が発生しているとき ルールの組合せを考慮したいとき ... 続きを読む
第5回さくさくテキストマイニングに参加しました #さくテキ - nokunoの日記
第5回 さくさくテキストマイニング勉強会 : ATND データクリーニング入門 〜精度は細部に宿る〜 by toilet_lunch様 掃除は大事です!! Unicode正規化 フィルタリング 第2水準の漢字は捨てる 短いツイートは捨てる URLは捨てる あなたの質問に答えてみた 〜疑問に対する応答〜 by gepuroさん イカ娘の記事から答えをマイニング Cabochaを使って係り受け解析 質... 続きを読む
自然言語処理における「全部入り」パッケージ - nokunoの日記
以下のエントリの翻訳です.End-to-end NLP packages | AI and Social Science – Brendan O'Connor無料で手に入る全部入りの自然言語処理(Natural Language Processing; NLP)システムにはどんなものがあるだろうか? ここでいう全部入りとはつまり,生のテキストから始めて,構文解析や意味的構造を出力するもののことを指... 続きを読む
本当に必要なN-gramは2割しかない - nokunoの日記
Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方... 続きを読む
第7回自然言語処理勉強会を開催しました #ToyoNLP - nokunoの日記
第7回自然言語処理勉強会を開催しました.会場をご提供いただいた@ajiyoshiさんとECナビさん,発表者の皆様,参加していただいた皆様,ありがとうございました&お疲れ様でした.第7回自然言語処理勉強会 #TokyoNLP : ATND きれいなジャイアンのカカカカ☆カーネル法入門-C++ by @sleepy_yoshiさん 自己紹介 本日の内容 オンライン学習でカーネルを使う方法を紹介 本日の... 続きを読む
論文の読み方 - nokunoの日記
id:echizen_tmさんの良エントリに触発されて書いてみます.未知の分野の論文を読むときの10のポイント - EchizenBlog-Zwei基本的には私もid:echizen_tmさんの書いた10のポイントに沿った読み方をしています.ひとつ付け加えるなら,論文を調べる前にやるべきことがあるケースについて.0. 論文を読む前に定番の書籍(技術書・教科書)がある場合はそちらを先に読む.実装より... 続きを読む
ACL2011読み会を開催しました #aclreading - nokunoの日記
ACL2011読み会を開催しました.ご参加頂いた皆様,会場をお貸しいただいた@shuyoさんとサイボウズ・ラボさんに感謝!ACL HLT 2011ACL Anthology » P11 Unsupervised Word Alignment with Arbitrary Features by @nokunohttp://www.cs.cmu.edu/~jhclark/pubs/alignment... 続きを読む
PyConJP 2011に参加しました #pyconjp - nokunoの日記
PyConJP 2011に参加および発表してきました.場所は品川シーサイドの産業技術大学院大学です.PyCon JP 2011 Keynote by @tarek_ziade How do I define dependencies? What's setup.py role? Example setup.cfg What's installed? How to uninstall?? Diffe... 続きを読む
Pythonでグラフ構造を扱うには - nokunoの日記
Pythonでグラフ構造を扱うには,networkxというライブラリが便利です.Overview — NetworkX v1.5 documentation# 使い方$ sudo easy_install networkx$ python>>> import networkx# ノードとエッジの貼り方>>> graph = networkx.Graph()>>> graph.add_node("y... 続きを読む
サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍 - nokunoの日記
サンプルコードがPythonで書かれた自然言語処理・データマイニングの書籍についてまとめました.オライリー社から出版されているものが多いですね.日本語だと,以下の本が有名です.Amazon.co.jp: 集合知プログラミング: Toby Segaran, 當山 仁健, 鴨澤 眞夫: 本Amazon.co.jp: 入門 自然言語処理: Steven Bird, Ewan Klein, Edward ... 続きを読む
自然言語処理にはやっぱりPythonがいちばん - nokunoの日記
Quoraで「自然言語処理に適したプログラミング言語はどれか?」という質問をしたところ,やっぱりPythonが一番人気のようです.What programming language is suitable for natural language processing? - Quora理由として以下が挙げられていますNLTKがあるから正規表現ライブラリ(re)が強力だからnumpyとscipyがあ... 続きを読む
MapReduceによる構造化パーセプトロンの並列化 - nokunoの日記
@neubigさんのつぶやきで,Hadoop HackathonというイベントがEMNLPに関連して行われたことを知る.Hadoop Hackathon 2011そこで実装された構造化パーセプトロンの並列実装が公開されたようだ.agesmundo/HadoopPerceptron - GitHub元々はGoogleによる論文があるようだ.Distributed Training Strategie... 続きを読む
NLPに関する良質なブログリスト - nokunoの日記
TwitterにいるNLPのすごい人リスト - nokunoの日記のブログ版です.例によって順不同です.生駒日記Seeking for my unique color.ny23の日記Mi manca qualche giovedi`?Standard ML of Yukkuriあんちべ!射撃しつつ前転EchizenBlog-Zweiビームの報告書理系大学院留学日記kisa12012の日記nozyh... 続きを読む
TwitterにいるNLPのすごい人リスト - nokunoの日記
便乗です。TwitterにいるPHPのすごい人リスト - Shin x blogNLP(と機械学習)方面で個人的に尊敬している人を中心にまとめてみました。敬称略・アルファベット順です。 @a_bicky @caesar_wanya @combinational @echizen_tm @hillbig @hitoshi_ni @issei_sato @kashi_pong @kimuras @ki... 続きを読む
情報系の学生がやっておくべき10000のこと - nokunoの日記
「情報系の学生がやっておくべき10000のこと」というタイトルの記事があったので、何事かと思いました。10000 things all ICS students should do before graduating | Tagide10000個もあるのか…とびっくりしましたが、よく読むと2進数で書かれていて、16個という意味でした。内容もとても良いことを言っていると思うので、簡単に紹介してみます... 続きを読む
第6回自然言語処理勉強会を開催しました #TokyoNLP - nokunoの日記
というわけで第6回TokyoNLPを開催しました。発表者の皆様、会場のajiyoshiさん(ECナビさん)、ありがとうございました!第6回 自然言語処理勉強会 #TokyoNLP : ATND CRFと素性テンプレート by @uchmikCrfと素性テンプレート View more presentations from uchumikMBAをuchmikさんに貸し出していたため簡単にメモ。 素性... 続きを読む
Hadoopを使ってサンプリングを行なうには - nokunoの日記
TokyoWebminingのustを見ていて、doryokujinさんのMapReduce入門編の資料がわかりやすくてよかったです。Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜 View more presentations from Takahiro InoueMapReduceのアルゴリズムデザインに関しては、8月〜9月に邦訳も出るというMapReduce本を読んでい... 続きを読む