タグ 日本語コーパス
人気順 10 users 50 users 100 users 500 users 1000 usersKOTONOHA「現代日本語書き言葉均衡コーパス」 少納言
このサイトでは大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した『現代日本語書き言葉均衡コーパス』(BCCWJ:Balanced Corpus of Contemporary Written Japanese)のデータを検索できます。BCCWJには、現代の日本語の書き言葉の全... 続きを読む
文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
前置きというか概要 今年のEMNLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日本語のコーパス( )で検証しました。 SCDVのモチベーション ( https://dheeraj7596.github.io/SDV/ ) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されて... 続きを読む
258億語の日本語コーパスをウェブで公開~国立国語研究所 -INTERNET Watch
ニュース 258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料 岩崎 宰守 2017年3月6日 14:51 大学共同利用機関法人人間文化研究機構国立国語研究所は、258億語規模の「国語研日本語ウェブコーパス(NWJC)」と、これを対象にした検索システム「梵天」を3月7日より一般公開する。 生活で使われた書きことばや話しことばのデータを大量に集積し... 続きを読む
BCCWJ: 述語項構造と照応関係のアノテーション
BCCWJ: 述語項構造と照応関係のアノテーション 「日本語コーパス: 代表性を有する大規模日本語書き言葉コーパスの構築」ツール班、 述語項構造・照応タグつきコーパスのページです。 コーパスデータの復元には日本語書き言葉均衡コーパスのDVD版 のデータが必要となりますので、ご注意ください。 データ 2012/09/30 日本語コーパス述語項構造・照応アノテーション v0.1 (README, IN... 続きを読む
KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言
このサイトでは大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した『現代日本語書き言葉均衡コーパス』(BCCWJ:Balanced Corpus of Contemporary Written Japanese)のデータを検索できます。BCCWJには、現代の日本語の書き言葉の全体像を把握できるように集められたサンプルが約... 続きを読む
大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記
大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下... 続きを読む
KOTONOHA「現代日本語書き言葉均衡コーパス」 検索デモンストレーション
このサイトでは独立行政法人国立国語研究所の日本語コーパス開発計画であるKOTONOHAプロジェクトおよび文科省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発を進めている『現代日本語書き言葉均衡コーパス』(以下では「本コーパス」と略称します)のデモンストレーション版を検索することができます。本コーパスでは、今後、数万人におよぶ著作権者の方々にサンプルの無償利用の許諾をお願いすること... 続きを読む