タグ「学習データ」

タグ学習データ

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 77件)

AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている

2024/11/26 23 users スケーリング則直面 OpenAI 限界性能

AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなって... 続きを読む

Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)

2024/11/18 5 users LLM 知見続編焦点エンコード方法

本資料では、大規模視覚言語モデル (LVLM) に関する最新の知見を包括的にまとめて紹介しています。 Part 1 では、「画像エンコーダ」と「大規模言語モデル (LLM)」の接続方法及び、画像のエンコード方法に焦点を当てて解説しています。（続編の Part 2 では、学習データに焦点を当てて解説… 続きを読む

『スタバなう』生成AIに対してできる反抗は、学習データに如何にノイズをぶち込むかって所だと思っている

2024/10/18 34 users 反抗ノイズスタバ生成AI ローソン

井上∃@謎の人 @BrainOfKeios @mahiemonu それはそうただこれだとあまりにもずれすぎててノイズにならないのでスタバなう　で　ローソンのコーヒーとか異常値ではじきにくいのでやったほうがよさそう続きを読む

Googleの自分専用AI作成サービス「NotebookLM」で学習データにYouTubeの動画を指定可能に

2024/09/27 20 users YouTube NotebookLM support URL

GoogleのカスタムAI作成サービス「NotebookLM」に、YouTubeのURLや音声ファイルを追加できる機能が搭載されました。これにより、YouTubeや音声ファイルの情報に基づいて質問に答えたり要約したりできるAIを作成できるようになります。 NotebookLM adds audio and YouTube support, plus easier sharing of Audio Overvie... 続きを読む

“学習データも全てオープン”なLLM、NIIが公開　GPT-3級モデルのプレビュー版

2024/09/17 10 users LLM フルスクラッチ NII プレビュー版パラメータ数

国立情報学研究所（NII）は9月17日、パラメータ数約1720億の大規模言語モデル（LLM）のプレビュー版「LLM-jp-3 172B beta1」を公開した。NIIが開発するLLMは、データをフルスクラッチで学習しており、AIモデルの他に学習データもオープンになっているのが特徴。プレビュー版モデルは、学習データの約3分の1までを学習し... 続きを読む

生成AIは言語によって異なる答えを返し、領土問題を煽る、という論文｜一田和樹のメモ帳

2024/07/09 6 users 生成AI 論文論争言語メモ帳

This Land is Your, My Land: Evaluating Geopolitical Bias in Language Models through Territorial Disputes https://aclanthology.org/2024.naacl-long.213/ 生成AIは学習データから学ぶ。しかし、異なる言語から学んだ場合、それぞれの言語圏での領土意識が反映された答えになるそうだ。この論文では論争となってい... 続きを読む

RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

2024/07/02 196 users Rag LLM データサイエンティスト arXiv.org

大規模言語モデル (LLM) の学習データに含まれない知識（各社の特有の書類など）を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む

総務省とKDDI､日本語特化の生成AI開発へ　使い勝手向上 - 日本経済新聞

2024/06/30 17 users KDDI 生成AI 人工知能 AI基盤総務省

総務省とKDDIは日本語に特化した生成AI（人工知能）の共同研究に乗り出す。大量の日本語で作った学習用データを同省傘下の研究機関が提供。KDDIのAI技術をかけあわせて、日本で使いやすいAI基盤の性能引き上げを目指す。海外勢が主導するAI開発は学習データが外国語に偏るのが課題となっている。最近では国内外の事業者... 続きを読む

NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか

2024/06/15 52 users NVIDIA 生成革命 LLM オープンモデル

高度なAIのトレーニングには高品質な学習データが欠かせませんが、そのようなデータは急速に枯渇しつつあることが問題となっています。NVIDIA2024年6月14日に、大規模言語モデル(LLM)のトレーニングに使用する合成データの生成を念頭に開発され、商用アプリケーションにも使えるオープンソースのAIモデル「Nemotron-4 34... 続きを読む

米Appleの独自AI「Apple Intelligence」の技術詳細　基盤モデルや学習データなどを解説

2024/06/13 8 users Apple Intelligence 米Apple 解説

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X：＠shiropen2 米Appleは、年次開発者会議「Worldwide Developers Conference 2024」（WWDC24）... 続きを読む

大規模言語モデルの開発

2024/05/30 60 users 言語モデル開発モテ人工知能学会全国大会横田研究室

2024年度人工知能学会全国大会（第38回）チュートリアル講演１本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデ... 続きを読む

AIからクリエイターを守るSNS「Oneup」オタク文化愛が生む、無断学習させない仕組み

2024/05/13 9 users ジェネレーティブAI 頻発イラストレーター生成AI 無断

イラストレーターをはじめとするクリエイターが、SNSやプラットフォームで作品を発表する──今まで当たり前のように行われていたことが、揺らぎはじめている。生成AI（ジェネレーティブAI）の登場により、インターネット上にアップロードした作品が、権利者に無断（※）で学習データに利用されてしまうケースが頻発。そ... 続きを読む

スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される

2024/05/13 10 users Fugaku-LLM スパコン富岳既存言語モデル

スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。 ... 続きを読む

NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024/04/24 11 users LLM cotomi アーキテクチャ NEC 生成AI

NECは、LLM(Large Language Model：大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む

OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始

2024/04/12 11 users OpenAI chatgpt コンテキストウィンドウ有料版

米OpenAIは4月12日（現地時間）、ChatGPTの有料版のPlus、Team、Enterpriseで「GPT-4 Turbo」の提供を開始したと公式Xアカウントで発表した。 GPT-4 Turboは昨年11月に発表したGPT-4の改良版LLM。コンテキストウィンドウが12万8000トークン（GPT-4は8000トークン）に拡大されており、発表当時、学習データは2023年4月ま... 続きを読む

日本語精度が高い130億パラメータの大規模言語モデル（LLM）を開発 | リコーグループ企業・IR | リコー

2024/01/31 7 users LLM リコー文法大山比率

株式会社リコー（社長執行役員：大山晃）は、日本企業の業務での活用を目的に、企業ごとのカスタマイズを容易に行える130億パラメータの大規模言語モデル＊1（LLM）を開発しました。日本語と英語での学習において、その学習データの比率を工夫することで、日本語としての文法や回答が正確で日本語精度の高い、日本企業... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章スクレイピングによる公共データベース（PDB)からの機械学習データを収集~ - LabCode

2024/01/31 30 users SCREENING pdb LabCode スクレイピング

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース（PDB)からの機械学習の学習データを収集となります。... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第1章公共データベース（ChMBL)からの機械学習の学習データを収集~ - LabCode

2024/01/29 20 users SCREENING 標的 LabCode 薬物候補化合物取得

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第1章で、公共データベース（ChEMBL)からのデータを収集となります。機械学習用のデータの取得ができ... 続きを読む

生成AIの学習データに児童虐待画像　米大学研究者が指摘 - 日本経済新聞

2023/12/21 14 users 生成AI 指摘児童虐待画像日本経済新聞米大学研究者

米スタンフォード大の研究者は20日、画像生成AI（人工知能）の学習用データセット「LAION（ライオン）5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像... 続きを読む

ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す？Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

2023/11/30 11 users TechnoEdge chatgpt テクノエッジ論文発表

同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文... 続きを読む

「レベル4」自動運転事故カメラが自転車を認識できず福井 | NHK

2023/11/10 198 users 運行ブレーキ福井特定車両

10月に福井県永平寺町で全国で初めて特定の条件のもとで完全な自動運転「レベル4」の運行を行っていた車両が自転車に接触した事故について町は10日、障害物を検知するカメラの事前の学習データが不足していたため、自転車だと認識できず、自動でブレーキがかからなかったことが原因だなどと公表しました。この事故は10... 続きを読む

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは？

2023/11/08 15 users トレーニング燃料データ一方普及

インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。 Researchers warn we could run out of data to train... 続きを読む

G7 「広島AIプロセス」で生成AIの開発者対象の行動規範と指針で合意 | NHK

2023/10/30 17 users 指針生成AI 共通合意行動規範

G7＝主要7か国が生成AIの活用や規制に向けて共通のルール作りを目指す「広島AIプロセス」で、開発者を対象にした行動規範と指針がまとまりました。生成AIが作成したコンテンツかどうかを見分けられる手段の開発と導入を求めています。学習データに基づいて文章や画像をみずから作る生成AIをめぐっては、ことし5月、G7各... 続きを読む

1790億パラメーターに挑戦…情通機構「大規模言語モデル」日本語を猛特訓！ニュースイッチ by 日刊工業新聞社

2023/08/21 19 users 猛特訓ニュースイッチ言語モデル挑戦 by 日刊工業新聞社

情報通信研究機構（ＮＩＣＴ）が１７９０億パラメーターの大規模言語モデル（ＬＬＭ）の開発を進めている。高品質な日本語データを学習させており、日本社会の常識を備えたモデルになると期待される。ＮＩＣＴが学習データを保有しているため、データとモデルの両面から誤情報生成の対策を検証できる。これは日本が人工... 続きを読む

デマ訂正と説明　RVCショタボイスに関して｜852話

2023/05/28 15 users Twitter デマ用途収録一言

現在Twitterを始めとして、自分がbooth販売したRVCデータについてのデマが横行しております。そちらのデマ訂正と説明記事になります。・実在する小学生男子の甥の声を本人や家族騙して収録・学習データを許可を得ず勝手に高額販売・児童ポルノ的用途を推奨してる上記全てデマです。販売データに関して、自身は一言... 続きを読む

(1 - 25 / 77件)

次の25件 »