タグ Taku Kudo
人気順 5 users 50 users 100 users 500 users 1000 usersTaku Kudo - Google+ - https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep…
https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep learning で 単語のベクトル表現を学習してくれる。 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。 It was recently shown that the word vectors capture many linguistic regular... 続きを読む
Taku Kudo - Google+ - IMEを作っていると、「きずく→気づく」という変換はけしからんとか、日本語の乱れを助長するとか指摘される。ATOKは親…
IMEを作っていると、「きずく→気づく」という変換はけしからんとか、日本語の乱れを助長するとか指摘される。ATOKは親切ににも《きづくの誤り》と指摘してくれる。しかし、少なくともローマ字入力というコンテキストにおいて、同変換ができないとか、誤りだと指摘することは、余計なお世話だと思う。(指摘はオプショナルだけど、少なくとも変換はできるべきだと思う) 日本語においてローマ字は2つの役割がある。1つは... 続きを読む
Taku Kudo - Google+ - MeCabのやり残した一つの機能としてにオンライン学習機能がありました。手元にある少量のコーパスのみを使い、現在のパラ…
Taku Kudo さんは Google+ を使用しています。Google+ に参加して関心があるユーザーと交流してください。 MeCabのやり残した一つの機能としてにオンライン学習機能がありました。手元にある少量のコーパスのみを使い、現在のパラメータ(コスト)を更新する機能です。元の学習データは必要ありません。ライセンスの関係からすべての人が元データを持っているとは限りません。というか持っていな... 続きを読む
Taku Kudo - Google+ - 単語単位の係り受けの違和感 …
Taku Kudo さんは Google+ を使用しています。Google+ に参加して関心があるユーザーと交流してください。 単語単位の係り受けの違和感 以前に係り受けは文節単位か単語単位かの議論があったのですが、やはり単語単位の係り受けには違和感があります。そもそも、単語単位というのは正確ではなくて、形態素単位というべきです。Twitterでは話しきれないようなこともあるので、ここにまとめてお... 続きを読む