タグ FM-Index
人気順 5 users 50 users 100 users 500 users 1000 usersアルゴリズム - ハクビシンにもわかる全文検索 - Qiita
高速な全文検索アルゴリズムであるFM-indexについて解説する。理解しがたい点や間違っている点があれば是非コメントで指摘してほしい。 概要 FM-indexはリニアな文字列に対して検索をするアルゴリズムで、主に簡潔データ構造とBWT(およびLF mapping)という二つのアイデアから成り立っている。BWTはBurrows-Wheeler変換のことで、文字列を特殊な並び順に変換するという可逆関数... 続きを読む
高速な文字列マッチング - 気ままなブログ
2013-07-25 高速な文字列マッチング NLP 最近は、簡潔データ構造を中心に調べたりしていたけど、文字列マッチングを考えた場合、別のアプローチもあります。そう、grepのような逐次文字列検索ですね。以下の解説がおもしろいです。http://www.i.kyushu-u.ac.jp/~takeda/papers/IPSJMagazineCPM.pdfCSAとかFM-Indexに隠れてしまって... 続きを読む
FM-Index - 気ままなブログ
2013-02-24 FM-Index Java BWTとウェーブレット行列を使って、FM-IndexをJavaで実装してみました。FM-Indexは、圧縮全文索引であり、テキストを圧縮して保持しながら、全文検索を実現することができます。Compressed Suffix Array(CSA)よりも高速と言われているデータ構造です。FM-Indexは、ざっくり以下のようなことができます。 元のテキ... 続きを読む