タグ コーパス
人気順 10 users 50 users 100 users 500 users 1000 users科学論文の査読にLLMが使われている?誤字修正目的の範囲を超えての使用も スタンフォード大など調査【研究紹介】
研究者らはLLMが使用されているかを調査するために、AIによって生成または修正されたコンテンツを効率的に調査するための新たなフレームワークを開発した。個々のテキストがAIによるものか人間によるものかを判定する従来のAIテキスト検出手法とは異なり、このフレームワークでは、テキスト全体(コーパス)の中でAIによ... 続きを読む
NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。 公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(... 続きを読む
225行のコードでGPTの仕組みを理解する
概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下... 続きを読む
画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中
DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。 Announcing OpenFlamingo: An open-source framework for training vision-language model... 続きを読む
ReazonSpeech - Reazon Human Interaction Lab
ReazonSpeech# ReazonSpeech は、約19,000時間の放送音声からなるラベル付き日本語音声コーパスです。 日本語音声認識技術の研究の推進を目的として構築されました。 音声コーパスに加えて、コーパスを構築するためのツールキット及び学習済みモデルを 自由なライセンスで公開しています。 続きを読む
中俣尚己の日本語チャンネル
日本語学の研究者、中俣尚己によるチャンネルです。しばらくは、拙著『「中納言」を活用したコーパス日本語研究入門』をベースにしたコーパスの解説動画をアップする予定です。 続きを読む
コーパス(Corpus)とは?英語学習の最強ツール 頻出動詞のコロケーションを完全整理 - ポリグロットライフ | 言語まなび∞ラボ
はじめに 今回は英語学習の最強ツールであるコーパスについて説明していきたいと思います。コーパスとは膨大の言語データベースで言語学の研究のために使用されています。まず始めに、コーパスの意味や活用方法、無料で利用できるコーパスを紹介します。英語学習への効果やコロケーションについても解説します。実際にSK... 続きを読む
小説の書き出し以降をAIが自動生成してくれる「AIのべりすと」を使ってみた
Googleが開発する機械学習に特化した集積回路「TPU」を用いてオープンな研究のブレイクスルーを図るTPU Research Cloudを利用し、日本語最大級の68.7億パラメータ&約500GBのコーパスからフルスクラッチで訓練した小説生成人工知能(AI)が「AIのべりすと」です。「AIのべりすと」は小説の書き出し部分を5~6行入力するだ... 続きを読む
AIのべりすと alpha2.0
「AIのべりすと」は日本語最大級の68.7億パラメータ&約500GBのコーパスからフルスクラッチで訓練した小説AIです(現在、テスト中です)。 初めての方はお試しプロンプトから始めるか、最初から好きな文章を入力して始めることもできます。 (ヒント:最低でも5~6行程度の文章を入力した方が思ったようなジャンルの文章... 続きを読む
文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
前置きというか概要 今年のEMNLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日本語のコーパス( )で検証しました。 SCDVのモチベーション ( https://dheeraj7596.github.io/SDV/ ) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されて... 続きを読む
Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE
By per egevad Googleが提供している「Google翻訳」は2016年で本格提供開始から10周年を迎えています。膨大な量のデータからなる コーパス をもとに翻訳を行ってきたのですが、2016年9月からは一部の言語で翻訳アルゴリズムを変更し、人工知能「ニューラルネットワーク」を用いることで、より人間に近い自然言語処理が行える「Google Neural Machine Transla... 続きを読む
言語処理100本ノック 2015
言語処理100本ノックの公式ウェブサイト言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語は... 続きを読む
O'Reilly Japan - word2vecによる自然言語処理
Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可... 続きを読む
コーパス間で頻度差の大きい単語を特定する - langstat blog
2014-05-14 コーパス間で頻度差の大きい単語を特定する r corpus 複数のコーパスにおける単語の出現頻度を比較する場合、比較対象となる語は、分析者によってあらかじめ決められています。従って、そのような比較は、分析者の仮説を統計的に検証するアプローチと言えるでしょう。しかし、実際の分析では、どの単語に注目すればよいかが事前に分かっているとは限りません。そのような場合は、コーパスに出現す... 続きを読む
無料でここまでできる→日本語を書くのに役立つサイト20選まとめ 読書猿Classic: between / beyond readers
(例文/コーパス) ◯KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言 www.kotonoha.gr.jp/shonagon/search_form 現代の日本語の書き言葉の全体像を把握できるように集められた約1億語収録の『現代日本語書き言葉均衡コーパス』をジャンルを指定したり、前後にくる言葉を指定した上で検索できる。用例を探したいときはまずここを当たる。 ◯コーパス検索ツールNINJ... 続きを読む
BCCWJ: 述語項構造と照応関係のアノテーション
BCCWJ: 述語項構造と照応関係のアノテーション 「日本語コーパス: 代表性を有する大規模日本語書き言葉コーパスの構築」ツール班、 述語項構造・照応タグつきコーパスのページです。 コーパスデータの復元には日本語書き言葉均衡コーパスのDVD版 のデータが必要となりますので、ご注意ください。 データ 2012/09/30 日本語コーパス述語項構造・照応アノテーション v0.1 (README, IN... 続きを読む
人間の欲望に忠実なコーパスを見る - 観月橋日記 (続生駒日記)
朝から涼しくて気持ちいい。ようやく秋かなぁ。読書の秋、ということで、先日仙台で購入した「性欲の科学」をようやく読了。性欲の科学 なぜ男は「素人」に興奮し、女は「男同士」に萌えるのか作者: オギ・オーガス,サイ・ガダム,坂東智子出版社/メーカー: 阪急コミュニケーションズ発売日: 2012/02/10メディア: 単行本(ソフトカバー)購入: 2人 クリック: 70回この商品を含むブログ (13件) ... 続きを読む
Taku Kudo - Google+ - MeCabのやり残した一つの機能としてにオンライン学習機能がありました。手元にある少量のコーパスのみを使い、現在のパラ…
Taku Kudo さんは Google+ を使用しています。Google+ に参加して関心があるユーザーと交流してください。 MeCabのやり残した一つの機能としてにオンライン学習機能がありました。手元にある少量のコーパスのみを使い、現在のパラメータ(コスト)を更新する機能です。元の学習データは必要ありません。ライセンスの関係からすべての人が元データを持っているとは限りません。というか持っていな... 続きを読む
形態素解析の辞書追加
形態素解析の分野適応:辞書追加だけでいいのか? by Graham Neubig 日本語の形態素解析を新しい分野に適応する時に、その分野の単語を辞書に追加することが多い。 このページは辞書の単語を登録するだけでいいのか、それとも新しい分野のコーパスを作成する必要があるのかについて調査する。 実験設定 一般分野からWeb(Yahoo!知恵袋)テキストへの分野適応を実験の対象とする。形態素解析器として... 続きを読む
コーパス・言語データ - Negative/Positive Thinking
自然言語処理 はじめに言語処理するのに基となるデータ(言語データ、コーパス)についてまとめてみる。 データ・テキストマイニングなどに。必要に応じてダウンロードして試してみたい。 コーパス(corpus)とは自然言語処理の研究に用いるために、自然言語の文章(用例)を構造化し大規模に集積したもの(電子データ) 辞書は、言語データだけど用例ではないのでコーパスではない よいコーパスとは、より対象をよくと... 続きを読む
国立国語研究所、書籍やブログなどから抽出した1億語の現代日本語コーパスを検索できる「中納言」を公開 | カレントアウェアネス・ポータル
2011年8月9日、国立国語研究所が「現代日本語書き言葉均衡コーパス」をオンラインで検索できるツール「中納言」を公開しました。短単位、長単位、文字列の3つの方法による検索ができるのが特徴だそうです。「現代日本語書き言葉均衡コーパス」は人間文化研究機構国立国語研究所が構築した現代日本語のコーパスで、書籍、雑誌、新聞、白書、教科書、広報紙、Webの掲示板、ブログなどから抽出した約1億語の日本語が含まれ... 続きを読む
[書評]コーパス100!で英会話|コーパス・フレーズ練習帳(投野由紀夫): 極東ブログ
投野由紀夫先生のコーパス英語の書籍は他にもいろいろあるし、実用性という点では本書「コーパス100!で英会話|コーパス・フレーズ練習帳」(参照)以外にもお薦めしたい本はある。でも、この本は少し毛色が違い、知的にも面白い。たぶん、英語が苦手な人にとっても英語が得意な人にとっても、へぇと改めて思うところが多いのではないか。高校生も社会人にも興味深い内容だろう。 コーパスというのは、文例を集めたデータベー... 続きを読む
大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記
大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下... 続きを読む
冪乗則と一様分布と遷移キャッシュ - やた@はてな日記
これまでキーの参照頻度が一様分布に従うという無茶な仮定の下で実験をすることが多かったのですが,遷移キャッシュを導入したということもあり,冪乗則だとどうなるのかを調べてみました.実験に用いたデータは,日本語ウェブコーパスにおける頻度 1000 以上の単語 N-gram です.N-gram コーパス - 日本語ウェブコーパス 2010 http://s-yata.jp/corpus/nwc2010/n... 続きを読む
Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいの... 続きを読む