タグ「学習データ」

タグ学習データ

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 62件)

AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている

2024/11/26 23 users スケーリング則直面 OpenAI 限界性能

AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなって... 続きを読む

『スタバなう』生成AIに対してできる反抗は、学習データに如何にノイズをぶち込むかって所だと思っている

2024/10/18 34 users 反抗ノイズスタバ生成AI ローソン

井上∃@謎の人 @BrainOfKeios @mahiemonu それはそうただこれだとあまりにもずれすぎててノイズにならないのでスタバなう　で　ローソンのコーヒーとか異常値ではじきにくいのでやったほうがよさそう続きを読む

Googleの自分専用AI作成サービス「NotebookLM」で学習データにYouTubeの動画を指定可能に

2024/09/27 20 users YouTube NotebookLM support URL

GoogleのカスタムAI作成サービス「NotebookLM」に、YouTubeのURLや音声ファイルを追加できる機能が搭載されました。これにより、YouTubeや音声ファイルの情報に基づいて質問に答えたり要約したりできるAIを作成できるようになります。 NotebookLM adds audio and YouTube support, plus easier sharing of Audio Overvie... 続きを読む

“学習データも全てオープン”なLLM、NIIが公開　GPT-3級モデルのプレビュー版

2024/09/17 10 users LLM フルスクラッチ NII プレビュー版パラメータ数

国立情報学研究所（NII）は9月17日、パラメータ数約1720億の大規模言語モデル（LLM）のプレビュー版「LLM-jp-3 172B beta1」を公開した。NIIが開発するLLMは、データをフルスクラッチで学習しており、AIモデルの他に学習データもオープンになっているのが特徴。プレビュー版モデルは、学習データの約3分の1までを学習し... 続きを読む

RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

2024/07/02 196 users Rag LLM データサイエンティスト arXiv.org

大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む

総務省とKDDI､日本語特化の生成AI開発へ　使い勝手向上 - 日本経済新聞

2024/06/30 17 users KDDI 生成AI 人工知能 AI基盤総務省

総務省とKDDIは日本語に特化した生成AI（人工知能）の共同研究に乗り出す。大量の日本語で作った学習用データを同省傘下の研究機関が提供。KDDIのAI技術をかけあわせて、日本で使いやすいAI基盤の性能引き上げを目指す。海外勢が主導するAI開発は学習データが外国語に偏るのが課題となっている。最近では国内外の事業者... 続きを読む

NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか

2024/06/15 52 users NVIDIA 生成革命 LLM オープンモデル

高度なAIのトレーニングには高品質な学習データが欠かせませんが、そのようなデータは急速に枯渇しつつあることが問題となっています。NVIDIA2024年6月14日に、大規模言語モデル(LLM)のトレーニングに使用する合成データの生成を念頭に開発され、商用アプリケーションにも使えるオープンソースのAIモデル「Nemotron-4 34... 続きを読む

大規模言語モデルの開発

2024/05/30 60 users 言語モデル開発モテ人工知能学会全国大会横田研究室

2024年度人工知能学会全国大会（第38回）チュートリアル講演１本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデ... 続きを読む

スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される

2024/05/13 10 users Fugaku-LLM スパコン富岳既存言語モデル

スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。 ... 続きを読む

NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024/04/24 11 users LLM cotomi アーキテクチャ NEC 生成AI

NECは、LLM(Large Language Model：大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む

OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始

2024/04/12 11 users OpenAI chatgpt コンテキストウィンドウ有料版

米OpenAIは4月12日（現地時間）、ChatGPTの有料版のPlus、Team、Enterpriseで「GPT-4 Turbo」の提供を開始したと公式Xアカウントで発表した。 GPT-4 Turboは昨年11月に発表したGPT-4の改良版LLM。コンテキストウィンドウが12万8000トークン（GPT-4は8000トークン）に拡大されており、発表当時、学習データは2023年4月ま... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章スクレイピングによる公共データベース（PDB)からの機械学習データを収集~ - LabCode

2024/01/31 30 users SCREENING pdb LabCode スクレイピング

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース（PDB)からの機械学習の学習データを収集となります。... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第1章公共データベース（ChMBL)からの機械学習の学習データを収集~ - LabCode

2024/01/29 20 users SCREENING 標的 LabCode 薬物候補化合物取得

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第1章で、公共データベース（ChEMBL)からのデータを収集となります。機械学習用のデータの取得ができ... 続きを読む

生成AIの学習データに児童虐待画像　米大学研究者が指摘 - 日本経済新聞

2023/12/21 14 users 生成AI 指摘児童虐待画像日本経済新聞米大学研究者

米スタンフォード大の研究者は20日、画像生成AI（人工知能）の学習用データセット「LAION（ライオン）5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像... 続きを読む

ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す？Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

2023/11/30 11 users TechnoEdge chatgpt テクノエッジ論文発表

同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文... 続きを読む

「レベル4」自動運転事故カメラが自転車を認識できず福井 | NHK

2023/11/10 198 users 運行ブレーキ福井特定車両

10月に福井県永平寺町で全国で初めて特定の条件のもとで完全な自動運転「レベル4」の運行を行っていた車両が自転車に接触した事故について町は10日、障害物を検知するカメラの事前の学習データが不足していたため、自転車だと認識できず、自動でブレーキがかからなかったことが原因だなどと公表しました。この事故は10... 続きを読む

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは？

2023/11/08 15 users トレーニング燃料データ一方普及

インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。 Researchers warn we could run out of data to train... 続きを読む

G7 「広島AIプロセス」で生成AIの開発者対象の行動規範と指針で合意 | NHK

2023/10/30 17 users 指針生成AI 共通合意行動規範

G7＝主要7か国が生成AIの活用や規制に向けて共通のルール作りを目指す「広島AIプロセス」で、開発者を対象にした行動規範と指針がまとまりました。生成AIが作成したコンテンツかどうかを見分けられる手段の開発と導入を求めています。学習データに基づいて文章や画像をみずから作る生成AIをめぐっては、ことし5月、G7各... 続きを読む

1790億パラメーターに挑戦…情通機構「大規模言語モデル」日本語を猛特訓！ニュースイッチ by 日刊工業新聞社

2023/08/21 19 users 猛特訓ニュースイッチ言語モデル挑戦 by 日刊工業新聞社

情報通信研究機構（ＮＩＣＴ）が１７９０億パラメーターの大規模言語モデル（ＬＬＭ）の開発を進めている。高品質な日本語データを学習させており、日本社会の常識を備えたモデルになると期待される。ＮＩＣＴが学習データを保有しているため、データとモデルの両面から誤情報生成の対策を検証できる。これは日本が人工... 続きを読む

デマ訂正と説明　RVCショタボイスに関して｜852話

2023/05/28 15 users Twitter デマ用途収録一言

現在Twitterを始めとして、自分がbooth販売したRVCデータについてのデマが横行しております。そちらのデマ訂正と説明記事になります。・実在する小学生男子の甥の声を本人や家族騙して収録・学習データを許可を得ず勝手に高額販売・児童ポルノ的用途を推奨してる上記全てデマです。販売データに関して、自身は一言... 続きを読む

OpenAI APIのファインチューニングの学習データのガイドライン｜npaka｜note

2023/04/16 188 users ファインチューニングプロンプト書式 Note 出力

以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力「コンプリーション」のペアで構成される学習データが必要です。これは、１回のプロンプトで詳細な手順や複数の... 続きを読む

OpenAI・アルトマンCEOのプレゼン資料が公開　自民党に何を語ったか

2023/04/11 36 users OpenAI LLM 自民党アルトマンCEO プレゼン資料

アルトマンCEOは10日に来日。岸田文雄総理大臣と面会後、自民党の会合に出席した。会合では「日本がAIの利活用を通じて世界で大きな存在感とリーダーシップを発揮してほしい」と話し、（1）日本関連の学習データのウェイト引き上げ、（2）政府の公開データなどの分析提供等、（3）LLMを用いた学習方法や留意点等について... 続きを読む

絵の人は基本的に画像生成AIへの拒否感が激強なのに対し音楽や文章の人はAIへの抵抗感がかなり薄いようなのだがその違いはなんなのだろうか

2023/04/05 33 users 画像生成AI 文章抵抗感拒否感音楽

よー清水🐧画集発売中 @you629 【教えて！】絵を仕事で描いてる人（イラストレーターなど）またはプロでなくても同人やskebなどで絵で金銭を得てる人に質問です。【質問1】「画像生成AIの学習データとしてあなたの作品を提供してください」と依頼されたら、あなたは作品を提供しますか？ 2023-03-31 22:47:17 よー清... 続きを読む

画像生成AI「Stable Diffusion XL」登場。DreamStudioならもう使えて、日本らしい人物・風景が簡単に生成できる（CloseBox） | テクノエッジ TechnoEdge

2023/04/03 293 users CloseBox TechnoEdge SDXL 従来ハード

Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」（SDXL）をオープンソース公開する計画であることを明らかにしました。学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パート... 続きを読む

ChatGPTは、質問するより作業を依頼する方が良さげ

2023/02/21 623 users chatgpt 表題良さげ筆者課金

賢いチャットAIとして話題のChatGPT。筆者も試しに課金をして、あれこれチャットを楽しんでいます。それで、ここまでの結論としては表題の通り、ChatGPTは質問をするよりも、作業を依頼する方が良さげだなと思いました。知識が古くて、質問には使えないなぜかというと、ChatGPTは現状では学習データが若干古く、例えば... 続きを読む

(1 - 25 / 62件)

次の25件 »