はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Ahogrammer

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 5 / 5件)
 

ナレッジグラフを用いたRAGの改善 - Ahogrammer

2024/03/21 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip Rag LLM ナレッジグラフ 改善 手法

RAG(Retrieval Augmented Generation)は大規模言語モデル(LLM)の性能を改善するための手法の1つであり、質問に対する回答を生成する際に、外部知識源から情報を取り込みます。 これにより、LLM 自体で学習できる情報量に制限されることなく、より正確で詳細な回答を生成することができます。 よく使われているRAGで... 続きを読む

OpenAIの埋め込みよりも高性能?多言語E5を日本語で評価してみる - Ahogrammer

2023/07/05 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI 対照 多言語 テキスト 性能

多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日本語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット(CCPairs)で対照学習した... 続きを読む

Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

2020/09/26 このエントリーをはてなブックマークに追加 136 users Instapaper Pocket Tweet Facebook Share Evernote Clip 分量 単語 分散表現 テキスト 自然言語処理

最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータ... 続きを読む

低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer

2019/08/31 このエントリーをはてなブックマークに追加 30 users Instapaper Pocket Tweet Facebook Share Evernote Clip 興味ねー 固有表現 論文 ドイツ語 以下

ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現... 続きを読む

テキストの構造化を支える技術 -概要編- - Ahogrammer

2018/10/12 このエントリーをはてなブックマークに追加 92 users Instapaper Pocket Tweet Facebook Share Evernote Clip テキスト 概要編 構造化 技術

最近、情報抽出、特にOpen Information Extraction(OpenIE)という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについ... 続きを読む

 
(1 - 5 / 5件)