タグ Lucene
人気順 5 users 50 users 100 users 500 users 1000 users読んで理解する全文検索 (IndexWriter, DWPT, IndexingChain 導入編) - 好奇心に殺される。- pon のテックブログ
Lucene / Java 読んで理解する全文検索 (IndexWriter, DWPT, IndexingChain 導入編) Lucene IndexWriter の内部を冒険します。 Overview こんにちは pon です。 全文検索エンジンは男の夢です。故に全文検索ライブラリであるLuceneの内部を理解するためにIndexWriterの実装をコードで追います。IndexWriterを追うことで... 続きを読む
Lucene #Kuromoji のコードを読む会 (辞書ビルダー編) - Speaker Deck
All slide content and descriptions are owned by their creators. 続きを読む
Go AbekawaのGo Global!~Doug Cutting編:Hadoop生みの親が、ゼロックスからアップルに転職した理由 (1/3) - @IT
「Go AbekawaのGo Global!」連載目次 アップルやディズニーなどの外資系企業でマーケティングを担当し、グローバルでのビジネス展開に深い知見を持つ阿部川“Go”久広が、グローバルを股に掛けたキャリアを築いてきたIT業界の先輩にお話を伺うインタビューシリーズ。第15回は「Hodoopの生みの親」Doug Cutting(ダグ・カッティング)氏に登場いただく。 Lucene、Nutch、... 続きを読む
Go - Luceneで使われてるFSTを実装してみた(正規表現マッチ:VMアプローチへの招待) - Qiita
入力と出力のペアに対して,上のようなグラフを作るのが目標です.テーブルの出力のとこは数字が書いてありますが,文字列だと思ってとらえて下さい.map だと出力は1つに限られちゃいますが,ひとつの入力に対して出力が複数あってもいいです.たとえば入力 "feb" に対して,出力は "28" と "29" があります.(2月は28日と29日のときがありますね). ノードの部分が状態で,そこから出ている矢印... 続きを読む
LuceneのFuzzyQueryとMoreLikeThisで遊んでみました - Starlight
Lucene最近読んでいたSolrやElasticsearch関連の本で、ちょっと気になっていたクエリで遊んでみました。Luceneで。 気になっていたクエリとは、 FuzzyQuery MoreLikeThisQuery です。 FuzzyQueryはあいまい検索、MoreLikeThisは似たドキュメントを取得するためのクエリです。 まあ、使っていってみましょう。 準備とりあえず、依存関係の定... 続きを読む
Lucene/SolrをJava 7で使うときの注意(あるいはJava 6以前でもホットスポットのバグを踏む可能性あり) | 関口宏司のLuceneブログ
本日リリースされたオラクルのJava 7に関し、Lucene/Solrプロジェクトから重要なお知らせがある。ロンウイットのホームページにも掲載したが、あまりにも重要なため、同じ内容になってしまうがここにも掲載しておく。 Apache LuceneとApache Solrユーザの皆様こんにちは。そして他のJavaベースのApacheプロジェクトのユーザの皆様こんにちは。 オラクルは本日Java 7を... 続きを読む
アメーバで利用しているLuceneのMergePolicyについて|サイバーエージェント 公式エンジニアブログ
サイバーエージェント 公式エンジニアブログ プリンキピア サイバーエージェント~日常と非日常の境~ プロフィール プロフィール|なう|ピグの部屋 ニックネーム:VAX 性別:男性 誕生日:1978年1月1日 0時頃 自己紹介: 毎週水曜日(+不定期)更新予定。サイバーエージェントのエンジニアが、持ち回りで技術、環境、職場を語り...>>続きをみる ブログジャンル:エンジニア メッセージを送る アメ... 続きを読む
TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection ... 続きを読む
Luceneの曖昧検索を100倍高速化したアルゴリズム - nokunoの日記
@nobu_k さんのつぶやきでこのエントリを知りました。Changing Bits: Lucene’s FuzzyQuery is 100 times faster in 4.0Luceneで曖昧検索を効率化した話です。 最初の実装では、転置インデックスを全探索して編集距離がN以下の単語を拾っていたレーベンシュタインオートマトンという、編集距離がN以下の単語のみをアクセプトするオートマトンを利用... 続きを読む
blogWatcher 2.0 / なんでもRSS
blogWatcher 2.0 / なんでもRSS [ インターネット ] blogWatcher開発日誌当初のご案内より少し遅くなってしまいましたが, 本日第2版を公開いたしました. 御利用下さり, これまで同様ご意見を頂ければ幸いです. 東工大の奥村研究室の研究成果である blogWatcher、その 2.0 が公開されています。なんというか、内部的に GETA から Lucene に変更され... 続きを読む