タグ 本文抽出
人気順 5 users 10 users 100 users 500 users 1000 users(1 - 2 / 2件)
WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - Mi manca qualche giovedi`?
WebDB Forum, 本文抽出昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani こ... 続きを読む
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 ... 続きを読む
(1 - 2 / 2件)