タグ「Ahogrammer」 - はてブログ

タグ Ahogrammer

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 6 / 6件)

ナレッジグラフを用いたRAGの改善 - Ahogrammer

2024/03/21 12 users Rag LLM ナレッジグラフ改善手法

RAG（Retrieval Augmented Generation）は大規模言語モデル（LLM）の性能を改善するための手法の1つであり、質問に対する回答を生成する際に、外部知識源から情報を取り込みます。これにより、LLM 自体で学習できる情報量に制限されることなく、より正確で詳細な回答を生成することができます。よく使われているRAGで... 続きを読む

OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる - Ahogrammer

2023/07/05 11 users OpenAI 対照多言語テキスト性能

多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日本語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した大規模なテキストペアのデータセット（CCPairs）で対照学習した... 続きを読む

Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

2020/09/26 136 users 分量単語分散表現テキスト自然言語処理

最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータ... 続きを読む

Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer

2020/09/16 7 users てきベクトルタスクテキスト分類多言語

自然言語処理において、テキストをその意味を考慮しつつ固定長のベクトルに変換する埋め込みモデルは重要です。文の意味をよく表現したベクトルを作ることができれば、テキスト分類や情報検索、文類似度など、さまざまなタスクで役立ちます。本記事では、Googleが開発した多言語の埋め込みモデル「LaBSE」を使って、テキ... 続きを読む

低リソースかつノイジーなテキストに対する固有表現認識 - Ahogrammer

2019/08/31 30 users 論文興味ねー固有表現ドイツ語以下

ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが、要するに低リソースかつノイジーなテキストに対する固有表現... 続きを読む

テキストの構造化を支える技術 -概要編- - Ahogrammer

2018/10/12 92 users テキスト概要編構造化技術

最近、情報抽出、特にOpen Information Extraction（OpenIE）という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについ... 続きを読む

(1 - 6 / 6件)