タグ 高速文字列解析
人気順 5 users 50 users 100 users 500 users 1000 usersShibu's Diary: ブラウザ上で動く検索エンジンOktavia
HTML5アドベントカレンダー向けのエントリーです。ブラウザでできることがどんどん増えています。2013年に一部で熱狂的な話題となった本の高速文字列解析の世界を読んで意識が高まったので、勢いにまかせてブラウザで動く検索エンジンを作ってみました。 ブラウザ上の検索エンジンと転置インデックスと東アジアの微妙な関係 全然調べていないので、歴史とかよくわからないのですが、僕が始めてブラウザ上で動く検索エン... 続きを読む
高速文字列解析の"別"世界 - 気ままなブログ
2013-07-07 高速文字列解析の"別"世界 NLP 1月に「高速文字列解析の世界」を購入してから半年が経ちました。以下、文字列本と呼びます。高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学)作者: 岡野原大輔出版社/メーカー: 岩波書店発売日: 2012/12/27メディア: 単行本購入: 15人 クリック: 324回この商品を含むブログ (4件) を見る... 続きを読む
ウェーブレット行列を実装した - hirokazu1020の日記
元のデータに対して十分小さいサイズでありながら各種操作を高速に処理でき、文字列のみならず2次元データやグラフデータまで表現できるというウェーブレット行列を実装してみた。「高速文字列解析の世界」とかブログとか読んでやっとのことで実装した。 ウェーブレット行列の各操作のオーダーの表記では、文字集合のサイズをσ、文字列長をnとしている。 inline int bitCount(ull x){ x = (... 続きを読む
Perlで完備辞書(Fully Indexable Dictionary)のモジュールを書いた - EchizenBlog-Zwei
計算機科学ウェーブレット木/行列など「高速文字列解析の世界」で扱っているデータ構造やアルゴリズムは完備辞書(Fully Indexable Dictionary)を基本的な道具として用いるものが多い。とはいえ実用的な完備辞書を一から作るのは大変なので、高速文字列本を読んで「ちょっとウェーブレット行列を作ってみようかな」と思ったとしても完備辞書は適当なモックで済まさないといけなかったりして面白くない... 続きを読む
「高速文字列解析の世界」を読む前に知っておくと良いこと - EchizenBlog-Zwei
計算機科学「高速文字列解析の世界」という大変すばらしい本が発売された。わりと敷居が高い本ではあるので読む前に知っておくとよさそうなことを書いておく。 「高速文字列解析」とは本書でいう高速文字列解析というのは主に2つのことを指している。ひとつはデータを圧縮して小さくしてディスクよりメモリ、メモリよりキャッシュというようにより高速な記憶装置で扱いましょう、という話。もうひとつはデータ構造を工夫すること... 続きを読む
"高速文字列解析の世界"を読んだ - 射撃しつつ前転
高速文字列解析の世界というタイトルからは、どんな中身なのかあまり伝わってこないので、どんなことが書いてある本なのか、中身をちょっと紹介してみる。 1章、2章は概観や準備であり、3章からが本番なのだが、Burrows Wheeler Transform、簡潔データ構造、ウェーブレットツリー、データ圧縮、全文検索、テキストマイニングのためのデータ構造、という章題になっている。 何に使うのかという目的ベ... 続きを読む
Amazon.co.jp: 高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学): 岡野原 大輔: 本
商品の説明内容紹介 文書、ウェブ上の情報、ゲノム配列、センサデータなど、多様な情報が「文字列」として表現される。そのデータ量は爆発的に増加しており、多くの分野で、より高度で高速な解析技術が求められている。本書では文字列解析に有用な理論、データ構造、アルゴリズムと、それをふまえたデータの圧縮、検索、分析の実践手法を紹介する。 続きを読む