はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ N-gram

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 12 / 12件)
 

MySQLで全文検索機能を使う際のパフォーマンスについて調査してみた - iimon tech blog

2023/12/01 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip MySQL iimon tech blog パフォーマンス

こんにちは、CTOの森です。iimonは今回が初のアドベントカレンダー参加です! 本記事はiimonアドベントカレンダー1日目の記事となります。 はじめに 検証した環境 MySQL/mecabのインストール 大量のデータを入れる 1レコードのINSERTにかかった時間 検索してみる 検索文字列が「出来事」の場合 インデックスなし N-gram(... 続きを読む

三経義疏を N-gram分析してみれば共通性と和習と学風の古さは一目瞭然 - 聖徳太子研究の最前線

2021/02/03 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip 学風 文系 講習 教員向け 分析

先日、勤務先で教員向けに N-gramを用いたコンピュータ処理による古典研究法の講習をし、例として三経義疏の分析をやってみました。文系のパソコンおたく仲間である漢字文献情報処理研究会のメンバーたちで開発したこのNGSM(N-Gram based system for Multiple document comparison and analysis)という比較分析法に関... 続きを読む

JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.

2019/12/24 このエントリーをはてなブックマークに追加 25 users Instapaper Pocket Tweet Facebook Share Evernote Clip アドベントカレンダー インデックス 全文検索 ラストスパート

アドベントカレンダーもラストスパート!こんにちは、森です! 仕組みをちゃんと理解するには実装してみることが一番!ということで、N-gramの中でも一番実装が簡単なuni-gramをjsで実装してみました! 目次 全文検索とは uni-gram インデックスの作成 文章にdocument IDを振る 文字列の分割 文字位置付与 トークンごと... 続きを読む

Elasticsearch+Hadoopベースの大規模検索基盤大解剖(2):ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上 (1/3) - @IT

2015/07/28 このエントリーをはてなブックマークに追加 85 users Instapaper Pocket Tweet Facebook Share Evernote Clip Elasticsearch+Hadoopベース 連載 運用

Elasticsearch+Hadoopベースの大規模検索基盤大解剖(2):ElasticsearchとKuromojiを使った形態素解析とN-Gramによる検索の適合率と再現率の向上 (1/3) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。今回は、テンプレートを利用... 続きを読む

Knerser-Ney スムージングによる文書生成 - Mi manca qualche giovedi`?

2013/07/23 このエントリーをはてなブックマークに追加 26 users Instapaper Pocket Tweet Facebook Share Evernote Clip Mi manca qualche giovedi iir

言語モデル, 文書生成, 言語処理少し前に Knerser-Ney スムージングの性能を測ってみた記事 を書いたが、今回は Knerser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行... 続きを読む

N-gram かな漢字・漢字かな変換(C++版) - アスペ日記

2012/06/11 このエントリーをはてなブックマークに追加 35 users Instapaper Pocket Tweet Facebook Share Evernote Clip hiroshi-manabe アスペ日記 漢字 漢字かな変換

作った。リポジトリはこちら。https://github.com/hiroshi-manabe/ngram-converter-cpp 以前、N-gram 漢字-かな変換という記事で、N-gram を使ったかな漢字・漢字かな変換を公開した。内部で使用しているアルゴリズムについては、可変次数 N-gram デコードのアルゴリズムの記事や、N-gram かな漢字変換 (スライド)で紹介した通り。精度は... 続きを読む

機械と協調作業で文章を作る - hitode909のダイアリー

2011/10/15 このエントリーをはてなブックマークに追加 43 users Instapaper Pocket Tweet Facebook Share Evernote Clip ダイアリー hitode909 協調作業 機械 文章

文章を書くのがしんどいので,機械と協調作業で文章を作れるようにした.最初に一文くらい書くと,続きを書いてくれる.機械が書いてる途中に,言い回しが気に入らないのが出てきたときは,割り込んで書いたり消したりできる.しばらく書かないとまた機械が書き始める.生成の情報源は上のテキストエリアに貼る,n-gramのnはスライドバーで選べる.マルコフ連鎖が出すのを途中で止めて直したりできるのが面白いと思って作っ... 続きを読む

大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

2011/10/12 このエントリーをはてなブックマークに追加 40 users Instapaper Pocket Tweet Facebook Share Evernote Clip Negative 個数 論文 プログラミング http

プログラミング, 自然言語処理はじめに大規模なテキストデータでのN-gram統計を取る場合、特にNが大きい場合(N>=3)は、組み合わせの数が多くなり出てくるN-gramをすべてメモリに保持しながら個数をカウントするのが難しい。効率的な方法があるのを知ったのでちょっと試してみた。 大規模テキストにおけるN-gram統計の取り方岩波講座ソフトウェア科学15「自然言語処理」 論文: http://ci... 続きを読む

本当に必要なN-gramは2割しかない - nokunoの日記

2011/09/14 このエントリーをはてなブックマークに追加 48 users Instapaper Pocket Tweet Facebook Share Evernote Clip nokuno 語彙 頻度 規模 性能

Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方... 続きを読む

冪乗則と一様分布と遷移キャッシュ - やた@はてな日記

2011/05/07 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip 一様分布 キャッシュ corpus コーパス 日記

これまでキーの参照頻度が一様分布に従うという無茶な仮定の下で実験をすることが多かったのですが,遷移キャッシュを導入したということもあり,冪乗則だとどうなるのかを調べてみました.実験に用いたデータは,日本語ウェブコーパスにおける頻度 1000 以上の単語 N-gram です.N-gram コーパス - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/n... 続きを読む

Google Japan Blog: 大規模日本語 n-gram データの公開

2007/11/01 このエントリーをはてなブックマークに追加 738 users Instapaper Pocket Tweet Facebook Share Evernote Clip データ Google Japan Blog 公開

2007年11月1日 Posted by 工藤拓・賀沢秀人(ソフトウェアエンジニア) 突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-... 続きを読む

mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに:ニュース - CNET Japan

2007/07/02 このエントリーをはてなブックマークに追加 107 users Instapaper Pocket Tweet Facebook Share Evernote Clip ソーシャルネットワーキングサービス YST ミクシィ goo

ミクシィは7月2日、ソーシャルネットワーキングサービス(SNS)「mixi」内の検索機能をgooから自社開発の検索エンジンに切り替えた。 今回の検索エンジン移行により、mixi内における日記やコミュニティの検索機能はすべて自社開発の検索エンジンによって提供される。 この検索エンジンは「文字 N-gram」をいう手法を用いたもので、従来の検索エンジンに比べて検索漏れが少ないという。mixiの日記には... 続きを読む

 
(1 - 12 / 12件)