はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Ahogrammer

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 1 / 1件)
 

Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

2020/09/26 このエントリーをはてなブックマークに追加 136 users Instapaper Pocket Tweet Facebook Share Evernote Clip 分量 単語 分散表現 テキスト 自然言語処理

最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータ... 続きを読む

 
(1 - 1 / 1件)