はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ きまぐれ日記

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 4 / 4件)
 

きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う

2010/04/21 このエントリーをはてなブックマークに追加 433 users Instapaper Pocket Tweet Facebook Share Evernote Clip Mecab

iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて... 続きを読む

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

2007/06/22 このエントリーをはてなブックマークに追加 227 users Instapaper Pocket Tweet Facebook Share Evernote Clip Mecab 品詞 チューニング 辞書 ペア

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りま... 続きを読む

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

2005/11/06 このエントリーをはてなブックマークに追加 136 users Instapaper Pocket Tweet Facebook Share Evernote Clip TF-IDF yto キーワード抽出 文書 単語

単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*i... 続きを読む

きまぐれ日記: はてなキーワードを高速に付与

2005/09/18 このエントリーをはてなブックマークに追加 186 users Instapaper Pocket Tweet Facebook Share Evernote Clip 付与 はてなキーワード NFA 人づて hatenadiary

人づてに聞いた話なのですが、はてなキーワードを実際の blog に付与する処理は、巨大な正規表現で行っているそうです。実際に調べてみると、以下のサイトからキーワード付与API と正規表現が入手できます。 http://d.hatena.ne.jp/hatenadiary/20040205 本当にはてな内部では正規表現を使っているのでしょうか? perl の 正規表現エンジンは NFA なので、単純... 続きを読む

 
(1 - 4 / 4件)