タグ Chasen
人気順 5 users 10 users 100 users 500 users 1000 userskuromoji.js - Webブラウザ上で分かち書き! MOONGIFT
テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJ... 続きを読む
単語と文字の話 : Preferred Research
4月からPFIで働いてます。海野です。 今日は単語の話をします。読み物的な話なので軽く読んでください。 テキストデータなどの自然文を機械処理するときには、まず最初に単語に分割するということをよく行います。一般的にはMeCabやChasenといった形態素解析エンジンに投げて行います。形態素と単語の区別という話もあるのですが、ここでは大雑把に「連続した文字列の単位」くらいの意味で話します。 検索という... 続きを読む
形態素解析MeCab(和布蕪)をPerlから使ってみる ゆうすけブログ/ウェブリブログ
[Perl] 形態素解析MeCab(和布蕪)をPerlから使ってみる << 作成日時 : 2006/04/04 00:40 >> トラックバック 1 / コメント 3 京都大学 情報学研究科のオープンソース形態素解析エンジンMeCab(和布蕪)を インストールして試してみたメモ。ChaSen, Juman, KAKASIより高速らしい。 今回は、形態素解析自体じゃなくて、分かち書き・読み仮名取得が... 続きを読む