はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ コーパス

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 8 / 8件)
 

225行のコードでGPTの仕組みを理解する

2023/08/27 このエントリーをはてなブックマークに追加 187 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT Transformer chatgpt コード 単語

概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下... 続きを読む

文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)

2017/11/12 このエントリーをはてなブックマークに追加 97 users Instapaper Pocket Tweet Facebook Share Evernote Clip SDV arXiv 精度 日本語コーパス 前置き

前置きというか概要 今年のEMNLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日本語のコーパス( )で検証しました。 SCDVのモチベーション ( https://dheeraj7596.github.io/SDV/ ) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されて... 続きを読む

Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE

2016/12/02 このエントリーをはてなブックマークに追加 91 users Instapaper Pocket Tweet Facebook Share Evernote Clip GIGAZINE ニューラルネットワーク 翻訳 突入 中間言語

By per egevad Googleが提供している「Google翻訳」は2016年で本格提供開始から10周年を迎えています。膨大な量のデータからなる コーパス をもとに翻訳を行ってきたのですが、2016年9月からは一部の言語で翻訳アルゴリズムを変更し、人工知能「ニューラルネットワーク」を用いることで、より人間に近い自然言語処理が行える「Google Neural Machine Transla... 続きを読む

言語処理100本ノック 2015

2015/03/12 このエントリーをはてなブックマークに追加 1882 users Instapaper Pocket Tweet Facebook Share Evernote Clip 言語処理100本ノック 作法 題材 プログラミング 統計

言語処理100本ノックの公式ウェブサイト言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語は... 続きを読む

O'Reilly Japan - word2vecによる自然言語処理

2014/05/16 このエントリーをはてなブックマークに追加 186 users Instapaper Pocket Tweet Facebook Share Evernote Clip word2vec O'Reilly Japan 言語処理

Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可... 続きを読む

無料でここまでできる→日本語を書くのに役立つサイト20選まとめ 読書猿Classic: between / beyond readers

2013/10/28 このエントリーをはてなブックマークに追加 1227 users Instapaper Pocket Tweet Facebook Share Evernote Clip between 書き言葉 beyond readers 用例

(例文/コーパス) ◯KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言 www.kotonoha.gr.jp/shonagon/search_form 現代の日本語の書き言葉の全体像を把握できるように集められた約1億語収録の『現代日本語書き言葉均衡コーパス』をジャンルを指定したり、前後にくる言葉を指定した上で検索できる。用例を探したいときはまずここを当たる。 ◯コーパス検索ツールNINJ... 続きを読む

大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

2011/06/20 このエントリーをはてなブックマークに追加 65 users Instapaper Pocket Tweet Facebook Share Evernote Clip Quora エントリ 日記 日本語コーパス 無料

大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下... 続きを読む

Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

2006/04/26 このエントリーをはてなブックマークに追加 166 users Instapaper Pocket Tweet Facebook Share Evernote Clip Kazuho@Cybozu Labs Mecab tail

« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいの... 続きを読む

 
(1 - 8 / 8件)