タグ 学習データ
新着順 10 users 50 users 100 users 500 users 1000 usersAIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなって... 続きを読む
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
本資料では、大規模視覚言語モデル (LVLM) に関する最新の知見を包括的にまとめて紹介しています。 Part 1 では、「画像エンコーダ」と「大規模言語モデル (LLM)」の接続方法及び、画像のエンコード方法に焦点を当てて解説しています。 (続編の Part 2 では、学習データに焦点を当てて解説… 続きを読む
『スタバなう』生成AIに対してできる反抗は、学習データに如何にノイズをぶち込むかって所だと思っている
井上∃@謎の人 @BrainOfKeios @mahiemonu それはそう ただこれだとあまりにもずれすぎてて ノイズにならないので スタバなう で ローソンのコーヒーとか 異常値ではじきにくいのでやったほうがよさそう 続きを読む
Googleの自分専用AI作成サービス「NotebookLM」で学習データにYouTubeの動画を指定可能に
GoogleのカスタムAI作成サービス「NotebookLM」に、YouTubeのURLや音声ファイルを追加できる機能が搭載されました。これにより、YouTubeや音声ファイルの情報に基づいて質問に答えたり要約したりできるAIを作成できるようになります。 NotebookLM adds audio and YouTube support, plus easier sharing of Audio Overvie... 続きを読む
“学習データも全てオープン”なLLM、NIIが公開 GPT-3級モデルのプレビュー版
国立情報学研究所(NII)は9月17日、パラメータ数約1720億の大規模言語モデル(LLM)のプレビュー版「LLM-jp-3 172B beta1」を公開した。NIIが開発するLLMは、データをフルスクラッチで学習しており、AIモデルの他に学習データもオープンになっているのが特徴。プレビュー版モデルは、学習データの約3分の1までを学習し... 続きを読む
生成AIは言語によって異なる答えを返し、領土問題を煽る、という論文|一田和樹のメモ帳
This Land is Your, My Land: Evaluating Geopolitical Bias in Language Models through Territorial Disputes https://aclanthology.org/2024.naacl-long.213/ 生成AIは学習データから学ぶ。しかし、異なる言語から学んだ場合、それぞれの言語圏での領土意識が反映された答えになるそうだ。この論文では論争となってい... 続きを読む
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む
総務省とKDDI、日本語特化の生成AI開発へ 使い勝手向上 - 日本経済新聞
総務省とKDDIは日本語に特化した生成AI(人工知能)の共同研究に乗り出す。大量の日本語で作った学習用データを同省傘下の研究機関が提供。KDDIのAI技術をかけあわせて、日本で使いやすいAI基盤の性能引き上げを目指す。海外勢が主導するAI開発は学習データが外国語に偏るのが課題となっている。最近では国内外の事業者... 続きを読む
NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか
高度なAIのトレーニングには高品質な学習データが欠かせませんが、そのようなデータは急速に枯渇しつつあることが問題となっています。NVIDIA2024年6月14日に、大規模言語モデル(LLM)のトレーニングに使用する合成データの生成を念頭に開発され、商用アプリケーションにも使えるオープンソースのAIモデル「Nemotron-4 34... 続きを読む
米Appleの独自AI「Apple Intelligence」の技術詳細 基盤モデルや学習データなどを解説
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleは、年次開発者会議「Worldwide Developers Conference 2024」(WWDC24)... 続きを読む
大規模言語モデルの開発
2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデ... 続きを読む
AIからクリエイターを守るSNS「Oneup」 オタク文化愛が生む、無断学習させない仕組み
イラストレーターをはじめとするクリエイターが、SNSやプラットフォームで作品を発表する──今まで当たり前のように行われていたことが、揺らぎはじめている。 生成AI(ジェネレーティブAI)の登場により、インターネット上にアップロードした作品が、権利者に無断(※)で学習データに利用されてしまうケースが頻発。 そ... 続きを読む
スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される
スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。 ... 続きを読む
NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発
NECは、LLM(Large Language Model:大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。 昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む
OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始
米OpenAIは4月12日(現地時間)、ChatGPTの有料版のPlus、Team、Enterpriseで「GPT-4 Turbo」の提供を開始したと公式Xアカウントで発表した。 GPT-4 Turboは昨年11月に発表したGPT-4の改良版LLM。コンテキストウィンドウが12万8000トークン(GPT-4は8000トークン)に拡大されており、発表当時、学習データは2023年4月ま... 続きを読む
日本語精度が高い130億パラメータの大規模言語モデル(LLM)を開発 | リコーグループ 企業・IR | リコー
株式会社リコー(社長執行役員:大山 晃)は、日本企業の業務での活用を目的に、企業ごとのカスタマイズを容易に行える130億パラメータの大規模言語モデル*1(LLM)を開発しました。日本語と英語での学習において、その学習データの比率を工夫することで、日本語としての文法や回答が正確で日本語精度の高い、日本企業... 続きを読む
【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode
本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース(PDB)からの機械学習の学習データを収集となります。... 続きを読む
【機械学習】機械学習を用いたin silico screening【AI創薬】~第1章 公共データベース(ChMBL)からの機械学習の学習データを収集~ - LabCode
本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第1章で、公共データベース(ChEMBL)からのデータを収集となります。機械学習用のデータの取得ができ... 続きを読む
生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞
米スタンフォード大の研究者は20日、画像生成AI(人工知能)の学習用データセット「LAION(ライオン)5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像... 続きを読む
ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge
同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文... 続きを読む
「レベル4」自動運転事故 カメラが自転車を認識できず 福井 | NHK
10月に福井県永平寺町で全国で初めて特定の条件のもとで完全な自動運転「レベル4」の運行を行っていた車両が自転車に接触した事故について町は10日、障害物を検知するカメラの事前の学習データが不足していたため、自転車だと認識できず、自動でブレーキがかからなかったことが原因だなどと公表しました。 この事故は10... 続きを読む
2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは?
インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。 Researchers warn we could run out of data to train... 続きを読む
G7 「広島AIプロセス」で生成AIの開発者対象の行動規範と指針で合意 | NHK
G7=主要7か国が生成AIの活用や規制に向けて共通のルール作りを目指す「広島AIプロセス」で、開発者を対象にした行動規範と指針がまとまりました。生成AIが作成したコンテンツかどうかを見分けられる手段の開発と導入を求めています。 学習データに基づいて文章や画像をみずから作る生成AIをめぐっては、ことし5月、G7各... 続きを読む
1790億パラメーターに挑戦…情通機構「大規模言語モデル」日本語を猛特訓! ニュースイッチ by 日刊工業新聞社
情報通信研究機構(NICT)が1790億パラメーターの大規模言語モデル(LLM)の開発を進めている。高品質な日本語データを学習させており、日本社会の常識を備えたモデルになると期待される。NICTが学習データを保有しているため、データとモデルの両面から誤情報生成の対策を検証できる。これは日本が人工... 続きを読む
デマ訂正と説明 RVCショタボイスに関して|852話
現在Twitterを始めとして、自分がbooth販売したRVCデータについてのデマが横行しております。 そちらのデマ訂正と説明記事になります。 ・実在する小学生男子の甥の声を本人や家族騙して収録 ・学習データを許可を得ず勝手に高額販売 ・児童ポルノ的用途を推奨してる 上記全てデマです。 販売データに関して、自身は一言... 続きを読む