タグ トレーニングデータ
人気順 5 users 50 users 100 users 500 users 1000 users完全にオープンで再現可能な大規模言語モデル「OpenCoder」がリリースされる
上海のAI企業「INF Technology」やオープンソースのAI研究コミュニティ「M-A-P」などに在籍する研究者のチームにより、最終モデルだけでなくトレーニングデータやデータ処理パイプラインなど、モデルを再現するのに必要な情報全てがオープンな大規模言語モデル「OpenCoder」が公開されました。 OpenCoder: Top-Tier Open... 続きを読む
ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に
ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に OpenAIの生成AIチャット「ChatGPT」に同じ単語を永遠に繰り返すよう依頼すると、繰り返した後にトレーニングデータを吐き出し始めることをGoogle DeepMindの研究者らが発見した。この発表後、ChatGPTは同... 続きを読む
ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発
ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGP... 続きを読む
OpenAI、改良版生成AIモデル「GPT-4 Turbo」を「GPT-4」より安価に提供へ
OpenAIは開発者会議DevDayで生成AIモデル「GPT-4 Turbo」を発表した。パフォーマンス最適化でGPT-4と比較してトークンの価格を大幅に値下げした。また、トレーニングデータを2023年4月までにした。 米OpenAIは11月6日(現地時間)、初の開発者会議「OpenAI DevDay」で、主力のテキスト生成AIモデル「GPT-4」の改良版「GP... 続きを読む
Meta、生成AIトレーニングからユーザーがデータ(の一部)を削除できるように
Metaは、プライバシーセンターに生成AIモデルのトレーニングデータに関する説明を追加した。また、「生成AIで使用されるサードパーティからの個人情報を削除」するためのフォームの提供を開始した。 上の画像の「Metaによる生成AIモデルの情報の利用について」を選択すると、「生成AIモデルに関連する、Metaによる情報の... 続きを読む
APIを呼び出すコードの生成に特化した大規模言語モデル「Gorilla」、APIの更新にリアルタイムで追従可能&オープンソースでモデル・トレーニングデータが公開済み
GPT-4のような高性能なモデルでも、APIの呼び出しコードを生成させるとかなりの確率で間違ったコードを生成してしまいます。「Gorilla」はAPIを呼び出すコードの生成に特化するようにファインチューニングが行われており、精度の高い呼び出しコードを生成できるだけでなく、情報検索器(Information Retriever)と一緒に利... 続きを読む
「人間の子供が聞く量の単語」のみで大規模言語モデルを新たにトレーニングするチャレンジ「BabyLM Challenge」が開催中、誰でも挑戦可能
チャットAIに用いられる大規模言語モデルの性能は、パラメーター数やトレーニングデータの量が増えるほど上昇するというのが通説ですが、この通説に反して「少ないデータ量で高性能な言語モデルを作成する」というチャレンジ「BabyLM Challenge」が開催されています。 babylm.github.io https://babylm.github.io/ 大規... 続きを読む
Googleが大規模言語モデル「PaLM 2」のテクニカルレポートを公開するも肝心な部分の情報は記載されず
GoogleはGoogle I/O 2023の中でGPT-4の競合となる大規模言語モデル「PaLM 2」を発表しました。同時にPaLM 2のテクニカルレポートも公開されましたが、トレーニングデータの収集元やトレーニングにおけるハードウェアの設定など重要な情報については公開されませんでした。 PaLM 2 Technical Report(PDF) https://ai.goog... 続きを読む
ChatGPTで記憶を持たせる|ナッピー通信|note
こんにちは代表のサル君です。今日はChatGPTに記憶を持たせる方法を紹介します。 ChatGPTと記憶力ChatGPTは、大量のテキストデータをトレーニングデータとして使用し、そのデータを元に自然言語テキストを生成することができます。しかし、個別の対話の詳細を長期的に覚えることはできません。これは、ChatGPTが非常に大... 続きを読む
Idein Ideas — 機械学習におけるDifferential Privacyについて
Ideinの先崎です。 最近Tensorflowが実装を公開するなど注目を集めている、機械学習+Differential Privacyという研究分野があります。これはDifferential Privacyと呼ばれる技術を使って、機械学習におけるトレーニングデータのプライバシを保護しようというものです。 本記事では、この研究分野でどのようなことが行わ... 続きを読む
3月21日のGoogle Doodle、メロディを入力するとAIがバッハ的和声をつけてくれる - ITmedia NEWS
この和声は、バッハが作曲したコラール(合唱曲)306曲を解析し、学習させたシステムが作る。バッハのコラールは通常、それぞれ独立したメロディを持つ4声で構成される。Googleはこの簡潔な構造は機械学習モデルの優れたトレーニングデータだとしている。 このシステムを完全にWebブラウザ内で実行させるために、Google... 続きを読む
機械学習プロジェクトのためのトレーニングデータを生成するSuperb AI | TechCrunch Japan
機械学習プロジェクトで開発を行う際の大きな課題の1つは、アルゴリズムをトレーニングするために、十分な数の関連データを用意することだ。この部分を助けようとしているのが、Y Combinator Winter 2019クラスのメンバーのSuper AIである。このスタートアップは、タグ付けプロセスをスピードアップするためにAIを使用し... 続きを読む
Linux Foundation、機械学習やAI時代をにらみデータのための新ライセンスを発表 | OSDN Magazine
Linuxやオープンソースソフトウェア開発を支援する非営利団体Linux Foundationは10月23日、オープンなデータのためのフリーソフトウェアライセンス「Community Data License Agreement」を発表した。個人ユーザーや企業が分析用のデータを共有するためのライセンスとなる。 機械学習などでは大量のトレーニングデータが必要となるが、データの知的所有権に対する扱いは... 続きを読む
AmazonとMicrosoft、オープンソースの深層学習インターフェイス「Gluon」を提供 - PC Watch
Gluon 米Amazon Web ServicesとMicrosoftは12日(現地時間)、オープンソースの深層学習インターフェイス「 Gluon 」を公開した。 ニューラルネットワークは、トレーニングデータ、モデル、アルゴリズムの3つの要素からなる。そのさい、データ量は大きく、モデルとアルゴリズムが複雑なため、モデルのトレーニングには数日~数週間かかってしまう。 現在ではApache M... 続きを読む