タグ N-gram
人気順 5 users 50 users 100 users 500 users 1000 usersMySQLで全文検索機能を使う際のパフォーマンスについて調査してみた - iimon tech blog
こんにちは、CTOの森です。iimonは今回が初のアドベントカレンダー参加です! 本記事はiimonアドベントカレンダー1日目の記事となります。 はじめに 検証した環境 MySQL/mecabのインストール 大量のデータを入れる 1レコードのINSERTにかかった時間 検索してみる 検索文字列が「出来事」の場合 インデックスなし N-gram(... 続きを読む
JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.
アドベントカレンダーもラストスパート!こんにちは、森です! 仕組みをちゃんと理解するには実装してみることが一番!ということで、N-gramの中でも一番実装が簡単なuni-gramをjsで実装してみました! 目次 全文検索とは uni-gram インデックスの作成 文章にdocument IDを振る 文字列の分割 文字位置付与 トークンごと... 続きを読む
Elasticsearch+Hadoopベースの大規模検索基盤大解剖(2):ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上 (1/3) - @IT
Elasticsearch+Hadoopベースの大規模検索基盤大解剖(2):ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上 (1/3) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。今回は、テンプレートを利用... 続きを読む
Knerser-Ney スムージングによる文書生成 - Mi manca qualche giovedi`?
言語モデル, 文書生成, 言語処理少し前に Knerser-Ney スムージングの性能を測ってみた記事 を書いたが、今回は Knerser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行... 続きを読む
N-gram かな漢字・漢字かな変換(C++版) - アスペ日記
作った。リポジトリはこちら。https://github.com/hiroshi-manabe/ngram-converter-cpp 以前、N-gram 漢字-かな変換という記事で、N-gram を使ったかな漢字・漢字かな変換を公開した。内部で使用しているアルゴリズムについては、可変次数 N-gram デコードのアルゴリズムの記事や、N-gram かな漢字変換 (スライド)で紹介した通り。精度は... 続きを読む
機械と協調作業で文章を作る - hitode909のダイアリー
文章を書くのがしんどいので,機械と協調作業で文章を作れるようにした.最初に一文くらい書くと,続きを書いてくれる.機械が書いてる途中に,言い回しが気に入らないのが出てきたときは,割り込んで書いたり消したりできる.しばらく書かないとまた機械が書き始める.生成の情報源は上のテキストエリアに貼る,n-gramのnはスライドバーで選べる.マルコフ連鎖が出すのを途中で止めて直したりできるのが面白いと思って作っ... 続きを読む
大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
プログラミング, 自然言語処理はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。 大規模テキストにおけるN-gram統計の取り方岩波講座ソフトウェア科学15「自然言語処理」 論文: http://ci... 続きを読む
本当に必要なN-gramは2割しかない - nokunoの日記
Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方... 続きを読む
Google Japan Blog: 大規模日本語 n-gram データの公開
2007年11月1日 Posted by 工藤拓・賀沢秀人(ソフトウェアエンジニア) 突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-... 続きを読む
mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに:ニュース - CNET Japan
ミクシィは7月2日、ソーシャルネットワーキングサービス(SNS)「mixi」内の検索機能をgooから自社開発の検索エンジンに切り替えた。 今回の検索エンジン移行により、mixi内における日記やコミュニティの検索機能はすべて自社開発の検索エンジンによって提供される。 この検索エンジンは「文字 N-gram」をいう手法を用いたもので、従来の検索エンジンに比べて検索漏れが少ないという。mixiの日記には... 続きを読む