タグ trie
人気順 5 users 50 users 100 users 500 users 1000 users簡単なトライ - LINE ENGINEERING
これはLINE Advent Calendar 2018の14日目の記事です。 LINEの上村です。今日は文字列です。 はじめに トライ (trie)は文字列の集合を索引化し高速な検索を可能にするデータ構造であり、領域効率や高速性を向上させた多様なアルゴリズムが提案され種々の実装が公開されています。 IPアドレスの検索、形態素解析器におけ... 続きを読む
PerlのRegexp::TrieをRubyに移植した - Islands in the byte stream
2016 - 01 - 22 PerlのRegexp::TrieをRubyに移植した GitHub - gfx/ruby-regexp_trie: Optimized Regexp builder with Trie (a Ruby port of Perl's Regexp::Trie) # Gemfile gem 'regexp_trie' これははてなキーワードやWikipediaのリンクの... 続きを読む
完備辞書(簡潔ビットベクトル)の解説 - アスペ日記
以前、「簡潔データ構造 LOUDS の解説」というシリーズの記事を書いたことがあります。LOUDS というのは木構造やtrieを簡潔に表すことができるデータ構造なのですが、この中で「簡潔ビットベクトル」というものについてはブラックボックスとして扱っていました。また、中学生にもわかるウェーブレット行列を書いたときも、その中で出てきた「完備辞書」の実装には触れませんでした。この「簡潔ビットベクトル」「... 続きを読む
Centroid Path Decompositionを使ったトライでダブル配列と勝負してみた | Preferred Research
釣りタイトルを付けたかったのですがさっぱり思いつかないのでもう諦めました。徳永です。 今回はCentroid Path Decomposition(以下CPD)についての話を書きます。直訳すると重心パス分解となるでしょうか。Trieを実現するためのテクニック(普通のツリーにも使えるのかな?なかなか難しそうですが…)の一つです。CPDは一年前の弊社岡野原の記事に出てきますが、私のような素人にはあれだ... 続きを読む
情報系修士にもわかるLOUDS - アスペ日記
「情報系修士にもわかるダブル配列」が好評だったので、二匹目のどじょうを狙って、「日本語入力を支える技術」でダブル配列と並べて解説されていた LOUDS についても書いてみる。注意点。LOUDS は本質的に難しい。流し読みではまずわからない。ダブル配列の「ずらしてガッチャンコ」のようなわかりやすいキーワードはない。ここでは簡潔ビットベクターはブラックボックスとして扱い、中には踏み込まない。trie ... 続きを読む
情報系修士にもわかるダブル配列 - アスペ日記
最近話題の「日本語入力を支える技術」を途中まで読んだ。3章がものすごく気合いが入っている。trie(トライ)というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。ダブル配列については、ぼくは以前論文を読んで勉強しようとしたのだが、その時は難しくてあきらめた覚えがある。しかし、この本の説明を読むことで理解ができた。ありがたい。 感銘を受けたので、この本を教材に友... 続きを読む
最近のtrieの話(xbwなど) : Preferred Research
岡野原です。 ブログの更新がとまっていましたが、また少しずつ更新してきたいと思います。 今回はtrie(トライ)の最近の話をしたいと思います。 trieはキー集合を扱うためのデータ構造の一種です。例えば、単語集合からなる辞書であったり、クロールしたURL情報を扱ったり、最近だと、KVS(Key Value Store)のようにキーを介してデータを保存、読み込みをしたりと様々な場面で利用されます。 ... 続きを読む
ウノウラボ Unoh Labs: PHPとMecabでキーワード自動リンクを実装する
こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装する方法を紹介したいと思います。 説明に入る前に少し補足しておくと、Trieの実装であるDouble-Array処理だけ利用したいのであれば、... 続きを読む
きまぐれ日記: Autolink: 前方最長一致ではなく最長キーワード優先一致を実現する
« colinux から VMware Player に乗り換え | メイン | 歩くスキー初体験 » 2006年01月20日 Autolink: 前方最長一致ではなく最長キーワード優先一致を実現する Hatena のキーワード置換アルゴリズムがTRIE ベースの手法に変更になったようです。以前に AC法でやる方法の記事を書いたのですが、それと似たことをやってるのでしょうか。 AC法のやり方は単純... 続きを読む