タグ トレーニングデータ
人気順 10 users 50 users 100 users 500 users 1000 usersOpenAIの著作権訴訟でChatGPTのトレーニングデータが一部の人間に開示されることが決定、オフライン・記録機器持ち込み禁止の厳重警備体制
自分たちの書籍が同意なくAIのトレーニングに使われたとして、サラ・シルバーマン氏を含む3人の作家がOpenAIを訴えた裁判で、原告らが厳重な警備のもとでAIのトレーニングに使われた資料を精査することが認められたことがわかりました。 OpenAI Training Data to Be Inspected in Sarah Silverman Copyright Case https:... 続きを読む
Google、「Imagen 2」ベースの画像生成AIツール「ImageFX」をLabsでリリース
各社が提供する画像生成AIで、フォトリアルな人物画像の生成も可能になってきた。最近ではテイラー・スウィフトの偽画像がSNSで拡散され、問題になった。 Googleは、トレーニングデータの安全性に多大な投資を行い、暴力的、攻撃的、露骨なコンテンツなどの問題のある出力を制限するための技術的なガードレールを追加し... 続きを読む
ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に
ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に OpenAIの生成AIチャット「ChatGPT」に同じ単語を永遠に繰り返すよう依頼すると、繰り返した後にトレーニングデータを吐き出し始めることをGoogle DeepMindの研究者らが発見した。この発表後、ChatGPTは同... 続きを読む
ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発
ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGP... 続きを読む
OpenAI、改良版生成AIモデル「GPT-4 Turbo」を「GPT-4」より安価に提供へ
OpenAIは開発者会議DevDayで生成AIモデル「GPT-4 Turbo」を発表した。パフォーマンス最適化でGPT-4と比較してトークンの価格を大幅に値下げした。また、トレーニングデータを2023年4月までにした。 米OpenAIは11月6日(現地時間)、初の開発者会議「OpenAI DevDay」で、主力のテキスト生成AIモデル「GPT-4」の改良版「GP... 続きを読む
Meta、生成AIトレーニングからユーザーがデータ(の一部)を削除できるように
Metaは、プライバシーセンターに生成AIモデルのトレーニングデータに関する説明を追加した。また、「生成AIで使用されるサードパーティからの個人情報を削除」するためのフォームの提供を開始した。 上の画像の「Metaによる生成AIモデルの情報の利用について」を選択すると、「生成AIモデルに関連する、Metaによる情報の... 続きを読む
APIを呼び出すコードの生成に特化した大規模言語モデル「Gorilla」、APIの更新にリアルタイムで追従可能&オープンソースでモデル・トレーニングデータが公開済み
GPT-4のような高性能なモデルでも、APIの呼び出しコードを生成させるとかなりの確率で間違ったコードを生成してしまいます。「Gorilla」はAPIを呼び出すコードの生成に特化するようにファインチューニングが行われており、精度の高い呼び出しコードを生成できるだけでなく、情報検索器(Information Retriever)と一緒に利... 続きを読む
「人間の子供が聞く量の単語」のみで大規模言語モデルを新たにトレーニングするチャレンジ「BabyLM Challenge」が開催中、誰でも挑戦可能
チャットAIに用いられる大規模言語モデルの性能は、パラメーター数やトレーニングデータの量が増えるほど上昇するというのが通説ですが、この通説に反して「少ないデータ量で高性能な言語モデルを作成する」というチャレンジ「BabyLM Challenge」が開催されています。 babylm.github.io https://babylm.github.io/ 大規... 続きを読む
Googleが大規模言語モデル「PaLM 2」のテクニカルレポートを公開するも肝心な部分の情報は記載されず
GoogleはGoogle I/O 2023の中でGPT-4の競合となる大規模言語モデル「PaLM 2」を発表しました。同時にPaLM 2のテクニカルレポートも公開されましたが、トレーニングデータの収集元やトレーニングにおけるハードウェアの設定など重要な情報については公開されませんでした。 PaLM 2 Technical Report(PDF) https://ai.goog... 続きを読む
ChatGPTで記憶を持たせる|ナッピー通信|note
こんにちは代表のサル君です。今日はChatGPTに記憶を持たせる方法を紹介します。 ChatGPTと記憶力ChatGPTは、大量のテキストデータをトレーニングデータとして使用し、そのデータを元に自然言語テキストを生成することができます。しかし、個別の対話の詳細を長期的に覚えることはできません。これは、ChatGPTが非常に大... 続きを読む
【BQML応用記事】BigQuery MLで作った機械学習のモデルでオンライン予測を実施する | Developers.IO
先にトレーニングデータ(train.csv)をデータセットに追加しておきます。 モデルのトレーニング 先ほど追加したデータを使ってトレーニングを行います。BQMLならSQLで簡単にトレーニングも実施できますね。 使うモデルはXGBoostでいこうと思います。(ちなみに最初はAutoML Tablesを使う予定でしたが、オンライン予測はま... 続きを読む
Idein Ideas — 機械学習におけるDifferential Privacyについて
Ideinの先崎です。 最近Tensorflowが実装を公開するなど注目を集めている、機械学習+Differential Privacyという研究分野があります。これはDifferential Privacyと呼ばれる技術を使って、機械学習におけるトレーニングデータのプライバシを保護しようというものです。 本記事では、この研究分野でどのようなことが行わ... 続きを読む
3月21日のGoogle Doodle、メロディを入力するとAIがバッハ的和声をつけてくれる - ITmedia NEWS
この和声は、バッハが作曲したコラール(合唱曲)306曲を解析し、学習させたシステムが作る。バッハのコラールは通常、それぞれ独立したメロディを持つ4声で構成される。Googleはこの簡潔な構造は機械学習モデルの優れたトレーニングデータだとしている。 このシステムを完全にWebブラウザ内で実行させるために、Google... 続きを読む
機械学習プロジェクトのためのトレーニングデータを生成するSuperb AI | TechCrunch Japan
機械学習プロジェクトで開発を行う際の大きな課題の1つは、アルゴリズムをトレーニングするために、十分な数の関連データを用意することだ。この部分を助けようとしているのが、Y Combinator Winter 2019クラスのメンバーのSuper AIである。このスタートアップは、タグ付けプロセスをスピードアップするためにAIを使用し... 続きを読む
Linux Foundation、機械学習やAI時代をにらみデータのための新ライセンスを発表 | OSDN Magazine
Linuxやオープンソースソフトウェア開発を支援する非営利団体Linux Foundationは10月23日、オープンなデータのためのフリーソフトウェアライセンス「Community Data License Agreement」を発表した。個人ユーザーや企業が分析用のデータを共有するためのライセンスとなる。 機械学習などでは大量のトレーニングデータが必要となるが、データの知的所有権に対する扱いは... 続きを読む
AmazonとMicrosoft、オープンソースの深層学習インターフェイス「Gluon」を提供 - PC Watch
Gluon 米Amazon Web ServicesとMicrosoftは12日(現地時間)、オープンソースの深層学習インターフェイス「 Gluon 」を公開した。 ニューラルネットワークは、トレーニングデータ、モデル、アルゴリズムの3つの要素からなる。そのさい、データ量は大きく、モデルとアルゴリズムが複雑なため、モデルのトレーニングには数日~数週間かかってしまう。 現在ではApache M... 続きを読む