タグ「nakatani」 - はてブログ

タグ nakatani

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 3 / 3件)

Ruby で Web ページの本文を抽出する方法 - present

2013/06/30 33 users GitHub present cybozu labs 前提

2013-06-30 Ruby で Web ページの本文を抽出する方法 Ruby ExtractContent を使えばいい。 Webページの本文抽出 (nakatani @ cybozu labs) ただ、上の記事の ExtractContent は Ruby1.9 以上では動かなかった。正規表現エンジンが変わったからね…。無ければ自分で修正することを前提に、GitHub で探したら、案の定 ... 続きを読む

Webページの本文抽出 (nakatani @ cybozu labs)

2007/09/12 335 users require カテゴライズ cybozu labs 技法

Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 ... 続きを読む

Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)

2007/06/28 174 users diff cybozu labs メモリ決定打見た目

Javascript で diff というのはいくつか試された例はあるようですが、まだこれといった決定打は出ていない様子です。実は diff は見た目ほど軽い処理ではないので、Javascript にやらせるのはこれが結構大変…… diff の計算量は、おおざっぱに言うと比較対象の要素数の二乗に比例し（実際にはそれより小さくすることができるのですが、まあ話のイメージとして）、かつメモリを大量に消... 続きを読む

(1 - 3 / 3件)

タグ nakatani

Ruby で Web ページの本文を抽出する方法 - present

Webページの本文抽出 (nakatani @ cybozu labs)

Javascriptでdiffる ( with 形態素解析 ) (nakatani @ cybozu labs)

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ