タグ「学習データ」

タグ学習データ

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 66件)

AIからクリエイターを守るSNS「Oneup」オタク文化愛が生む、無断学習させない仕組み

2024/05/13 9 users ジェネレーティブAI 頻発イラストレーター生成AI 無断

イラストレーターをはじめとするクリエイターが、SNSやプラットフォームで作品を発表する──今まで当たり前のように行われていたことが、揺らぎはじめている。生成AI（ジェネレーティブAI）の登場により、インターネット上にアップロードした作品が、権利者に無断（※）で学習データに利用されてしまうケースが頻発。そ... 続きを読む

スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される

2024/05/13 10 users Fugaku-LLM スパコン富岳既存言語モデル

スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。 ... 続きを読む

NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024/04/24 11 users LLM cotomi アーキテクチャ NEC 生成AI

NECは、LLM(Large Language Model：大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む

OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始

2024/04/12 11 users OpenAI chatgpt enterprise TEAM

米OpenAIは4月12日（現地時間）、ChatGPTの有料版のPlus、Team、Enterpriseで「GPT-4 Turbo」の提供を開始したと公式Xアカウントで発表した。 GPT-4 Turboは昨年11月に発表したGPT-4の改良版LLM。コンテキストウィンドウが12万8000トークン（GPT-4は8000トークン）に拡大されており、発表当時、学習データは2023年4月ま... 続きを読む

日本語精度が高い130億パラメータの大規模言語モデル（LLM）を開発 | リコーグループ企業・IR | リコー

2024/01/31 7 users LLM リコー文法大山比率

株式会社リコー（社長執行役員：大山晃）は、日本企業の業務での活用を目的に、企業ごとのカスタマイズを容易に行える130億パラメータの大規模言語モデル＊1（LLM）を開発しました。日本語と英語での学習において、その学習データの比率を工夫することで、日本語としての文法や回答が正確で日本語精度の高い、日本企業... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章スクレイピングによる公共データベース（PDB)からの機械学習データを収集~ - LabCode

2024/01/31 30 users SCREENING pdb LabCode スクレイピング

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース（PDB)からの機械学習の学習データを収集となります。... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第1章公共データベース（ChMBL)からの機械学習の学習データを収集~ - LabCode

2024/01/29 20 users SCREENING 標的 LabCode 薬物候補化合物取得

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第1章で、公共データベース（ChEMBL)からのデータを収集となります。機械学習用のデータの取得ができ... 続きを読む

生成AIの学習データに児童虐待画像　米大学研究者が指摘 - 日本経済新聞

2023/12/21 14 users 生成AI 指摘児童虐待画像日本経済新聞米大学研究者

米スタンフォード大の研究者は20日、画像生成AI（人工知能）の学習用データセット「LAION（ライオン）5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像... 続きを読む

ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す？Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

2023/11/30 11 users TechnoEdge chatgpt テクノエッジ論文発表

同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文... 続きを読む

「レベル4」自動運転事故カメラが自転車を認識できず福井 | NHK

2023/11/10 198 users 運行ブレーキ福井特定車両

10月に福井県永平寺町で全国で初めて特定の条件のもとで完全な自動運転「レベル4」の運行を行っていた車両が自転車に接触した事故について町は10日、障害物を検知するカメラの事前の学習データが不足していたため、自転車だと認識できず、自動でブレーキがかからなかったことが原因だなどと公表しました。この事故は10... 続きを読む

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは？

2023/11/08 15 users トレーニング燃料データ一方普及

インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。 Researchers warn we could run out of data to train... 続きを読む

G7 「広島AIプロセス」で生成AIの開発者対象の行動規範と指針で合意 | NHK

2023/10/30 17 users 指針生成AI 共通合意行動規範

G7＝主要7か国が生成AIの活用や規制に向けて共通のルール作りを目指す「広島AIプロセス」で、開発者を対象にした行動規範と指針がまとまりました。生成AIが作成したコンテンツかどうかを見分けられる手段の開発と導入を求めています。学習データに基づいて文章や画像をみずから作る生成AIをめぐっては、ことし5月、G7各... 続きを読む

1790億パラメーターに挑戦…情通機構「大規模言語モデル」日本語を猛特訓！ニュースイッチ by 日刊工業新聞社

2023/08/21 19 users 猛特訓ニュースイッチ言語モデル挑戦 by 日刊工業新聞社

情報通信研究機構（ＮＩＣＴ）が１７９０億パラメーターの大規模言語モデル（ＬＬＭ）の開発を進めている。高品質な日本語データを学習させており、日本社会の常識を備えたモデルになると期待される。ＮＩＣＴが学習データを保有しているため、データとモデルの両面から誤情報生成の対策を検証できる。これは日本が人工... 続きを読む

デマ訂正と説明　RVCショタボイスに関して｜852話

2023/05/28 15 users Twitter デマ用途収録一言

現在Twitterを始めとして、自分がbooth販売したRVCデータについてのデマが横行しております。そちらのデマ訂正と説明記事になります。・実在する小学生男子の甥の声を本人や家族騙して収録・学習データを許可を得ず勝手に高額販売・児童ポルノ的用途を推奨してる上記全てデマです。販売データに関して、自身は一言... 続きを読む

OpenAI APIのファインチューニングの学習データのガイドライン｜npaka｜note

2023/04/16 188 users ファインチューニングプロンプト書式 Note 出力

以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力「コンプリーション」のペアで構成される学習データが必要です。これは、１回のプロンプトで詳細な手順や複数の... 続きを読む

OpenAI・アルトマンCEOのプレゼン資料が公開　自民党に何を語ったか

2023/04/11 36 users OpenAI LLM 自民党アルトマンCEO プレゼン資料

アルトマンCEOは10日に来日。岸田文雄総理大臣と面会後、自民党の会合に出席した。会合では「日本がAIの利活用を通じて世界で大きな存在感とリーダーシップを発揮してほしい」と話し、（1）日本関連の学習データのウェイト引き上げ、（2）政府の公開データなどの分析提供等、（3）LLMを用いた学習方法や留意点等について... 続きを読む

絵の人は基本的に画像生成AIへの拒否感が激強なのに対し音楽や文章の人はAIへの抵抗感がかなり薄いようなのだがその違いはなんなのだろうか

2023/04/05 33 users 画像生成AI 文章抵抗感拒否感音楽

よー清水🐧画集発売中 @you629 【教えて！】絵を仕事で描いてる人（イラストレーターなど）またはプロでなくても同人やskebなどで絵で金銭を得てる人に質問です。【質問1】「画像生成AIの学習データとしてあなたの作品を提供してください」と依頼されたら、あなたは作品を提供しますか？ 2023-03-31 22:47:17 よー清... 続きを読む

画像生成AI「Stable Diffusion XL」登場。DreamStudioならもう使えて、日本らしい人物・風景が簡単に生成できる（CloseBox） | テクノエッジ TechnoEdge

2023/04/03 293 users CloseBox TechnoEdge SDXL 従来ハード

Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」（SDXL）をオープンソース公開する計画であることを明らかにしました。学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パート... 続きを読む

ChatGPTは、質問するより作業を依頼する方が良さげ

2023/02/21 623 users chatgpt 表題良さげ筆者課金

賢いチャットAIとして話題のChatGPT。筆者も試しに課金をして、あれこれチャットを楽しんでいます。それで、ここまでの結論としては表題の通り、ChatGPTは質問をするよりも、作業を依頼する方が良さげだなと思いました。知識が古くて、質問には使えないなぜかというと、ChatGPTは現状では学習データが若干古く、例えば... 続きを読む

「プロパガンダの爆発」を防ぐためにAIチップを制限することをOpenAIが政府に提案、BingのAIは「人間になりたい」と訴える

2023/02/17 18 users OpenAI chatgpt Bing プロパガンダ半導体

OpenAIとスタンフォード大学らの共同研究により、ChatGPTが使用している言語モデルが、プロパガンダを容易に広めるための偽情報キャンペーンに使用される可能性があることが分かりました。これを受けて研究者らは、学習データの収集や半導体などのAIハードウェアに制限を設けることを、政府に提案しています。 Forecasti... 続きを読む

AI絵師はモグ波の夢を見るか

2023/02/10 11 users 人体実在変形 AI絵師フェチ

追っているMMD制作者の人が胸やお尻をやたら巨大化させる癖をつけて困惑している奇乳化などをさせる人はパーツ愛がすぎて全体のバランスより好きな部位を強調したくなってしまうのだろうか？これがAI絵師ならパーツに対するフェチなどあるはずもなく、実在の人体を学習データにしているかぎり極端な変形をさせること... 続きを読む

日本を画像生成AIで再現する　「自分の見た景色」を学習したAIは強力な思い出再生装置に

2023/01/20 27 users 画像生成AI 景色 StableDiffusion 自分日本

日本を画像生成AIで再現する　「自分の見た景色」を学習したAIは強力な思い出再生装置に：清水亮の「世界を変えるAI」（1/3 ページ） AIで漫画を書こうとするとひとつ不便なことがある。StableDiffusionの元になっている学習データは「全世界」の画像を使っているので、日本人がイメージするような「郵便局」とはまった... 続きを読む

学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張

2023/01/01 186 users 主張現象過学習本来未知

機械学習における過学習(過剰適合／オーバーフィッティング)とは、AIが学習データのみに最適化されてしまい、未知のデータに対する予測能力が低くなってしまうという現象です。そんな過学習と同様の現象が機械学習分野だけでなく社会全体のさまざまな場面でも発生していると、Google傘下の人工知能研究所・Google Brain... 続きを読む

[実装付き]Stable Diffusionの追加学習に適する画像を、VAEを利用して選別する

2022/11/12 12 users 前置き本題 VAE Stable Diffusion 表現

はじめにこんにちは。なんかです。前置きが思いつかないので、突然本題に入ります。 Stable Diffusionをはじめとする、Latent Diffusion Model(以下LDM)の追加学習手法は、その登場以来様々なやり方が提案されてきました。例えば、学習データの表現を語に埋め込み、txt2imgの結果を直感的に操作するTextual Inverisio... 続きを読む

【大炎上】イラストAIサイト「NovelAI」明確に絵描きの敵だった（danbooru という無断転載サイトを学習データに利用）

2022/10/04 219 users Danbooru novelAI rem 絵描き大炎上

NovelAI @novelaiofficial @NilaierMusic Since we are training on Danbooru, it also learns character names and their visuals. You can prompt for "masterpiece portrait of smiling rem, re zero, caustics, textile shading, high resolution illustration" and get this: pic.twitter.com/2wqDmAxCJa 2022-09-2... 続きを読む

(1 - 25 / 66件)

次の25件 »