タグ「トレーニングデータ」

タグトレーニングデータ

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 14 / 14件)

完全にオープンで再現可能な大規模言語モデル「OpenCoder」がリリースされる

2024/11/11 13 users 上海再現大規模言語モデルオープンソース AI企業

上海のAI企業「INF Technology」やオープンソースのAI研究コミュニティ「M-A-P」などに在籍する研究者のチームにより、最終モデルだけでなくトレーニングデータやデータ処理パイプラインなど、モデルを再現するのに必要な情報全てがオープンな大規模言語モデル「OpenCoder」が公開されました。 OpenCoder: Top-Tier Open... 続きを読む

ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に

2023/12/05 14 users OpenAI chatgpt 生成AIチャット論文単語

ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に OpenAIの生成AIチャット「ChatGPT」に同じ単語を永遠に繰り返すよう依頼すると、繰り返した後にトレーニングデータを吐き出し始めることをGoogle DeepMindの研究者らが発見した。この発表後、ChatGPTは同... 続きを読む

ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発

2023/11/30 13 users chatgpt 命令単語攻撃手法トレーニング

ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGP... 続きを読む

OpenAI、改良版生成AIモデル「GPT-4 Turbo」を「GPT-4」より安価に提供へ

2023/11/06 24 users OpenAI トークン GPT-4 米OpenAI 主力

OpenAIは開発者会議DevDayで生成AIモデル「GPT-4 Turbo」を発表した。パフォーマンス最適化でGPT-4と比較してトークンの価格を大幅に値下げした。また、トレーニングデータを2023年4月までにした。米OpenAIは11月6日（現地時間）、初の開発者会議「OpenAI DevDay」で、主力のテキスト生成AIモデル「GPT-4」の改良版「GP... 続きを読む

Meta、生成AIトレーニングからユーザーがデータ（の一部）を削除できるように

2023/09/01 13 users Meta 生成AI サードパーティ生成AIモデル削除

Metaは、プライバシーセンターに生成AIモデルのトレーニングデータに関する説明を追加した。また、「生成AIで使用されるサードパーティからの個人情報を削除」するためのフォームの提供を開始した。上の画像の「Metaによる生成AIモデルの情報の利用について」を選択すると、「生成AIモデルに関連する、Metaによる情報の... 続きを読む

APIを呼び出すコードの生成に特化した大規模言語モデル「Gorilla」、APIの更新にリアルタイムで追従可能＆オープンソースでモデル・トレーニングデータが公開済み

2023/06/15 21 users GORILLA ファインチューニング API 生成 GPT-4

GPT-4のような高性能なモデルでも、APIの呼び出しコードを生成させるとかなりの確率で間違ったコードを生成してしまいます。「Gorilla」はAPIを呼び出すコードの生成に特化するようにファインチューニングが行われており、精度の高い呼び出しコードを生成できるだけでなく、情報検索器(Information Retriever)と一緒に利... 続きを読む

「人間の子供が聞く量の単語」のみで大規模言語モデルを新たにトレーニングするチャレンジ「BabyLM Challenge」が開催中、誰でも挑戦可能

2023/06/02 13 users 単語チャレンジ言語モデル通説挑戦

チャットAIに用いられる大規模言語モデルの性能は、パラメーター数やトレーニングデータの量が増えるほど上昇するというのが通説ですが、この通説に反して「少ないデータ量で高性能な言語モデルを作成する」というチャレンジ「BabyLM Challenge」が開催されています。 babylm.github.io https://babylm.github.io/ 大規... 続きを読む

Googleが大規模言語モデル「PaLM 2」のテクニカルレポートを公開するも肝心な部分の情報は記載されず

2023/05/20 12 users テクニカルレポート GPT-4 ハードウェア競合 PDF

GoogleはGoogle I/O 2023の中でGPT-4の競合となる大規模言語モデル「PaLM 2」を発表しました。同時にPaLM 2のテクニカルレポートも公開されましたが、トレーニングデータの収集元やトレーニングにおけるハードウェアの設定など重要な情報については公開されませんでした。 PaLM 2 Technical Report(PDF) https://ai.goog... 続きを読む

ChatGPTで記憶を持たせる｜ナッピー通信｜note

2023/04/16 140 users chatgpt Note 対話個別記憶

こんにちは代表のサル君です。今日はChatGPTに記憶を持たせる方法を紹介します。 ChatGPTと記憶力ChatGPTは、大量のテキストデータをトレーニングデータとして使用し、そのデータを元に自然言語テキストを生成することができます。しかし、個別の対話の詳細を長期的に覚えることはできません。これは、ChatGPTが非常に大... 続きを読む

Idein Ideas — 機械学習におけるDifferential Privacyについて

2019/03/28 22 users Idein Ideas プライバシ機械学習 idein 先崎

Ideinの先崎です。最近Tensorflowが実装を公開するなど注目を集めている、機械学習+Differential Privacyという研究分野があります。これはDifferential Privacyと呼ばれる技術を使って、機械学習におけるトレーニングデータのプライバシを保護しようというものです。本記事では、この研究分野でどのようなことが行わ... 続きを読む

3月21日のGoogle Doodle、メロディを入力するとAIがバッハ的和声をつけてくれる - ITmedia NEWS

2019/03/21 28 users メロディ Google Doodle 和声バッハ合唱曲

この和声は、バッハが作曲したコラール（合唱曲）306曲を解析し、学習させたシステムが作る。バッハのコラールは通常、それぞれ独立したメロディを持つ4声で構成される。Googleはこの簡潔な構造は機械学習モデルの優れたトレーニングデータだとしている。このシステムを完全にWebブラウザ内で実行させるために、Google... 続きを読む

機械学習プロジェクトのためのトレーニングデータを生成するSuperb AI | TechCrunch Japan

2019/02/26 24 users TechCrunch JAPAN 機械学習プロジェクト

機械学習プロジェクトで開発を行う際の大きな課題の1つは、アルゴリズムをトレーニングするために、十分な数の関連データを用意することだ。この部分を助けようとしているのが、Y Combinator Winter 2019クラスのメンバーのSuper AIである。このスタートアップは、タグ付けプロセスをスピードアップするためにAIを使用し... 続きを読む

Linux Foundation、機械学習やAI時代をにらみデータのための新ライセンスを発表 | OSDN Magazine

2017/10/24 42 users OSDN Magazine Foundation 機械学習

Linuxやオープンソースソフトウェア開発を支援する非営利団体Linux Foundationは10月23日、オープンなデータのためのフリーソフトウェアライセンス「Community Data License Agreement」を発表した。個人ユーザーや企業が分析用のデータを共有するためのライセンスとなる。機械学習などでは大量のトレーニングデータが必要となるが、データの知的所有権に対する扱いは... 続きを読む

AmazonとMicrosoft、オープンソースの深層学習インターフェイス「Gluon」を提供 - PC Watch

2017/10/13 82 users Gluon ニューラルネットワークアルゴリズム要素モデル

Gluon 　米Amazon Web ServicesとMicrosoftは12日(現地時間)、オープンソースの深層学習インターフェイス「 Gluon 」を公開した。　ニューラルネットワークは、トレーニングデータ、モデル、アルゴリズムの3つの要素からなる。そのさい、データ量は大きく、モデルとアルゴリズムが複雑なため、モデルのトレーニングには数日～数週間かかってしまう。　現在ではApache M... 続きを読む

(1 - 14 / 14件)