はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 学習データ

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 69件)

NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか

2024/06/15 このエントリーをはてなブックマークに追加 52 users Instapaper Pocket Tweet Facebook Share Evernote Clip NVIDIA 生成 革命 LLM オープンモデル

高度なAIのトレーニングには高品質な学習データが欠かせませんが、そのようなデータは急速に枯渇しつつあることが問題となっています。NVIDIA2024年6月14日に、大規模言語モデル(LLM)のトレーニングに使用する合成データの生成を念頭に開発され、商用アプリケーションにも使えるオープンソースのAIモデル「Nemotron-4 34... 続きを読む

米Appleの独自AI「Apple Intelligence」の技術詳細 基盤モデルや学習データなどを解説

2024/06/13 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip Apple Intelligence 米Apple 解説

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleは、年次開発者会議「Worldwide Developers Conference 2024」(WWDC24)... 続きを読む

大規模言語モデルの開発

2024/05/30 このエントリーをはてなブックマークに追加 60 users Instapaper Pocket Tweet Facebook Share Evernote Clip 言語モデル 開発 モテ 人工知能学会全国大会 横田研究室

2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデ... 続きを読む

AIからクリエイターを守るSNS「Oneup」 オタク文化愛が生む、無断学習させない仕組み

2024/05/13 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip ジェネレーティブAI 頻発 イラストレーター 生成AI 無断

イラストレーターをはじめとするクリエイターが、SNSやプラットフォームで作品を発表する──今まで当たり前のように行われていたことが、揺らぎはじめている。 生成AI(ジェネレーティブAI)の登場により、インターネット上にアップロードした作品が、権利者に無断(※)で学習データに利用されてしまうケースが頻発。 そ... 続きを読む

スパコン「富岳」で学習した日本語特化大規模言語モデル「Fugaku-LLM」が公開される

2024/05/13 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip Fugaku-LLM スパコン 富岳 既存 言語モデル

スーパーコンピューター「富岳」を用いて学習した130億パラメータの大規模言語モデル「Fugaku-LLM」が2024年5月10日(金)に公開されました。Fugaku-LLMは既存の大規模言語モデルに頼らず独自の学習データを用いて学習しており、既存の日本語特化大規模言語モデルと比べて高い性能を発揮することがアピールされています。 ... 続きを読む

NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024/04/24 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM cotomi アーキテクチャ NEC 生成AI

NECは、LLM(Large Language Model:大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。 昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む

OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始

2024/04/12 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI chatgpt enterprise TEAM

米OpenAIは4月12日(現地時間)、ChatGPTの有料版のPlus、Team、Enterpriseで「GPT-4 Turbo」の提供を開始したと公式Xアカウントで発表した。 GPT-4 Turboは昨年11月に発表したGPT-4の改良版LLM。コンテキストウィンドウが12万8000トークン(GPT-4は8000トークン)に拡大されており、発表当時、学習データは2023年4月ま... 続きを読む

日本語精度が高い130億パラメータの大規模言語モデル(LLM)を開発 | リコーグループ 企業・IR | リコー

2024/01/31 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM リコー 文法 大山 比率

株式会社リコー(社長執行役員:大山 晃)は、日本企業の業務での活用を目的に、企業ごとのカスタマイズを容易に行える130億パラメータの大規模言語モデル*1(LLM)を開発しました。日本語と英語での学習において、その学習データの比率を工夫することで、日本語としての文法や回答が正確で日本語精度の高い、日本企業... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

2024/01/31 このエントリーをはてなブックマークに追加 30 users Instapaper Pocket Tweet Facebook Share Evernote Clip SCREENING pdb LabCode スクレイピング

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第2章で、スクレイピングによる公共データベース(PDB)からの機械学習の学習データを収集となります。... 続きを読む

【機械学習】機械学習を用いたin silico screening【AI創薬】~第1章 公共データベース(ChMBL)からの機械学習の学習データを収集~ - LabCode

2024/01/29 このエントリーをはてなブックマークに追加 20 users Instapaper Pocket Tweet Facebook Share Evernote Clip SCREENING 標的 LabCode 薬物候補化合物 取得

本記事はAI創薬の一つである機械学習を用いたin silico screeningについて書かれた記事です。第5章まであり、すべての内容が理解できると、目的の標的にあった薬物候補化合物を発見することができます。こちらの記事は第1章で、公共データベース(ChEMBL)からのデータを収集となります。機械学習用のデータの取得ができ... 続きを読む

生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞

2023/12/21 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip 生成AI 指摘 児童虐待画像 日本経済新聞 米大学研究者

米スタンフォード大の研究者は20日、画像生成AI(人工知能)の学習用データセット「LAION(ライオン)5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像... 続きを読む

ChatGPTに同じ言葉を連呼させると、壊れて学習データ(個人情報入り)を吐き出す?Google DeepMind研究者らのチームが論文発表 | テクノエッジ TechnoEdge

2023/11/30 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip TechnoEdge chatgpt テクノエッジ 論文発表

同様のプロンプトを使って出てきた情報としてはほかにも、研究論文やCNNほかのニュースサイトの記事断片、Wikipediaのページに記された文章、詩の断片、Bitcoinアドレス、ファックス番号、だれかの名前、誕生日、ソーシャルメディアのハンドルネーム、デートサイトからとみられる露骨なコンテンツ、著作権のある研究論文... 続きを読む

「レベル4」自動運転事故 カメラが自転車を認識できず 福井 | NHK

2023/11/10 このエントリーをはてなブックマークに追加 198 users Instapaper Pocket Tweet Facebook Share Evernote Clip 運行 ブレーキ 福井 特定 車両

10月に福井県永平寺町で全国で初めて特定の条件のもとで完全な自動運転「レベル4」の運行を行っていた車両が自転車に接触した事故について町は10日、障害物を検知するカメラの事前の学習データが不足していたため、自転車だと認識できず、自動でブレーキがかからなかったことが原因だなどと公表しました。 この事故は10... 続きを読む

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは?

2023/11/08 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip トレーニング 燃料 データ 一方 普及

インターネット上には膨大なデータが存在しており、それらを学習させることで作られたAIが続々と登場するようになりました。AIの普及が爆発的に進む一方、研究者からはAIシステムを動かす燃料である学習データが枯渇する可能性があると懸念する声が上がっています。 Researchers warn we could run out of data to train... 続きを読む

G7 「広島AIプロセス」で生成AIの開発者対象の行動規範と指針で合意 | NHK

2023/10/30 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip 指針 生成AI 共通 合意 行動規範

G7=主要7か国が生成AIの活用や規制に向けて共通のルール作りを目指す「広島AIプロセス」で、開発者を対象にした行動規範と指針がまとまりました。生成AIが作成したコンテンツかどうかを見分けられる手段の開発と導入を求めています。 学習データに基づいて文章や画像をみずから作る生成AIをめぐっては、ことし5月、G7各... 続きを読む

1790億パラメーターに挑戦…情通機構「大規模言語モデル」日本語を猛特訓! ニュースイッチ by 日刊工業新聞社

2023/08/21 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip 猛特訓 ニュースイッチ 言語モデル 挑戦 by 日刊工業新聞社

情報通信研究機構(NICT)が1790億パラメーターの大規模言語モデル(LLM)の開発を進めている。高品質な日本語データを学習させており、日本社会の常識を備えたモデルになると期待される。NICTが学習データを保有しているため、データとモデルの両面から誤情報生成の対策を検証できる。これは日本が人工... 続きを読む

デマ訂正と説明 RVCショタボイスに関して|852話

2023/05/28 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip Twitter デマ 用途 収録 一言

現在Twitterを始めとして、自分がbooth販売したRVCデータについてのデマが横行しております。 そちらのデマ訂正と説明記事になります。 ・実在する小学生男子の甥の声を本人や家族騙して収録 ・学習データを許可を得ず勝手に高額販売 ・児童ポルノ的用途を推奨してる 上記全てデマです。 販売データに関して、自身は一言... 続きを読む

OpenAI APIのファインチューニングの学習データのガイドライン|npaka|note

2023/04/16 このエントリーをはてなブックマークに追加 188 users Instapaper Pocket Tweet Facebook Share Evernote Clip ファインチューニング プロンプト 書式 Note 出力

以下の記事を元に、「OpenAI API」のファインチューニングの学習データのガイドラインをまとめました。 1. 学習データの書式ファインチューニングするには、単一の入力「プロンプト」とそれに関連する出力 「コンプリーション」 のペアで構成される学習データが必要です。これは、1回のプロンプトで詳細な手順や複数の... 続きを読む

OpenAI・アルトマンCEOのプレゼン資料が公開 自民党に何を語ったか

2023/04/11 このエントリーをはてなブックマークに追加 36 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI LLM 自民党 アルトマンCEO プレゼン資料

アルトマンCEOは10日に来日。岸田文雄総理大臣と面会後、自民党の会合に出席した。会合では「日本がAIの利活用を通じて世界で大きな存在感とリーダーシップを発揮してほしい」と話し、(1)日本関連の学習データのウェイト引き上げ、(2)政府の公開データなどの分析提供等、(3)LLMを用いた学習方法や留意点等について... 続きを読む

絵の人は基本的に画像生成AIへの拒否感が激強なのに対し音楽や文章の人はAIへの抵抗感がかなり薄いようなのだがその違いはなんなのだろうか

2023/04/05 このエントリーをはてなブックマークに追加 33 users Instapaper Pocket Tweet Facebook Share Evernote Clip 画像生成AI 文章 抵抗感 拒否感 音楽

よー清水🐧画集発売中 @you629 【教えて!】 絵を仕事で描いてる人(イラストレーターなど)またはプロでなくても同人やskebなどで絵で金銭を得てる人に質問です。 【質問1】 「画像生成AIの学習データとしてあなたの作品を提供してください」と依頼されたら、あなたは作品を提供しますか? 2023-03-31 22:47:17 よー清... 続きを読む

画像生成AI「Stable Diffusion XL」登場。DreamStudioならもう使えて、日本らしい人物・風景が簡単に生成できる(CloseBox) | テクノエッジ TechnoEdge

2023/04/03 このエントリーをはてなブックマークに追加 293 users Instapaper Pocket Tweet Facebook Share Evernote Clip CloseBox TechnoEdge SDXL 従来 ハード

Stability AIは、同社が提供している画像生成AI「Stable Diffusion」を大幅に強化した「Stable Diffusion XL」(SDXL)をオープンソース公開する計画であることを明らかにしました。 学習データを従来の9億パラメータから、23億パラメータへと大幅に強化。これが次期バージョン3に組み込まれるとしています。現在パート... 続きを読む

ChatGPTは、質問するより作業を依頼する方が良さげ

2023/02/21 このエントリーをはてなブックマークに追加 623 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt 表題 良さげ 筆者 課金

賢いチャットAIとして話題のChatGPT。筆者も試しに課金をして、あれこれチャットを楽しんでいます。それで、ここまでの結論としては表題の通り、ChatGPTは質問をするよりも、作業を依頼する方が良さげだなと思いました。 知識が古くて、質問には使えない なぜかというと、ChatGPTは現状では学習データが若干古く、例えば... 続きを読む

「プロパガンダの爆発」を防ぐためにAIチップを制限することをOpenAIが政府に提案、BingのAIは「人間になりたい」と訴える

2023/02/17 このエントリーをはてなブックマークに追加 18 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI chatgpt Bing プロパガンダ 半導体

OpenAIとスタンフォード大学らの共同研究により、ChatGPTが使用している言語モデルが、プロパガンダを容易に広めるための偽情報キャンペーンに使用される可能性があることが分かりました。これを受けて研究者らは、学習データの収集や半導体などのAIハードウェアに制限を設けることを、政府に提案しています。 Forecasti... 続きを読む

AI絵師はモグ波の夢を見るか

2023/02/10 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip 人体 実在 変形 AI絵師 フェチ

追っているMMD制作者の人が胸やお尻をやたら巨大化させる癖をつけて困惑している 奇乳化などをさせる人はパーツ愛がすぎて全体のバランスより好きな部位を強調したくなってしまうのだろうか? これがAI絵師ならパーツに対するフェチなどあるはずもなく、実在の人体を学習データにしているかぎり 極端な変形をさせること... 続きを読む

日本を画像生成AIで再現する 「自分の見た景色」を学習したAIは強力な思い出再生装置に

2023/01/20 このエントリーをはてなブックマークに追加 27 users Instapaper Pocket Tweet Facebook Share Evernote Clip 画像生成AI 景色 StableDiffusion 自分 日本

日本を画像生成AIで再現する 「自分の見た景色」を学習したAIは強力な思い出再生装置に:清水亮の「世界を変えるAI」(1/3 ページ) AIで漫画を書こうとするとひとつ不便なことがある。StableDiffusionの元になっている学習データは「全世界」の画像を使っているので、日本人がイメージするような「郵便局」とはまった... 続きを読む

 
(1 - 25 / 69件)