はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ cybozu labs

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 2 / 2件)
 

Webページの本文抽出 (nakatani @ cybozu labs)

2007/09/12 このエントリーをはてなブックマークに追加 335 users Instapaper Pocket Tweet Facebook Share Evernote Clip require nakatani カテゴライズ UTF-8

Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 ... 続きを読む

Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)

2007/06/28 このエントリーをはてなブックマークに追加 174 users Instapaper Pocket Tweet Facebook Share Evernote Clip diff nakatani メモリ JavaScript 二乗

Javascript で diff というのはいくつか試された例はあるようですが、まだこれといった決定打は出ていない様子です。 実は diff は見た目ほど軽い処理ではないので、Javascript にやらせるのはこれが結構大変…… diff の計算量は、おおざっぱに言うと比較対象の要素数の二乗に比例し(実際にはそれより小さくすることができるのですが、まあ話のイメージとして)、かつメモリを大量に消... 続きを読む

 
(1 - 2 / 2件)