タグ「データセット」

タグデータセット

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 147件)

ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大

2024/12/16 15 users Nature LLM 学術雑誌 AIモデル現状

AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。 The AI revolution is running o... 続きを読む

「Bluesky運営元はユーザーの投稿をAI学習に使わないが第三者はAI学習できてしまう」という実例が登場、BlueskyのAPI経由で100万投稿分のデータセットがHugging Faceで公開されてしまう

2024/11/28 22 users Bluesky 旧twitter Hugging Face

2024年11月に利用規約を更新したX(旧Twitter)では、投稿をAI学習に利用することを明文化しました。これを受けて、多くのユーザーが「投稿をAIのトレーニングに利用することはない」と表明している競合SNSのBlueskyに移行しています。しかし、BlueskyのAPI経由で入手した100万投稿分のデータセットがHugging Face上で公開... 続きを読む

商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開｜AI Picasso

2024/09/09 127 users 文章英語モデル学習画像開発

これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。日本語と英語の文章がそのまま... 続きを読む

バクラクのデータセットを用いた項目領域推定とレイアウト情報の重要性 - LayerX エンジニアブログ

2024/08/22 8 users バクラク上川 AI-OCR LayerX エンジニアブログ

こんにちは。機械学習エンジニアの上川です。本記事では、バクラクのデータを用いて書類上の項目領域を推定する物体検出モデルを構築し、項目領域の推定におけるレイアウト情報の重要性について考察を行ったので、その紹介をします。 AI-OCRにおけるレイアウト情報の重要性弊社のバクラクにはAI-OCRという機能があり、... 続きを読む

GitHubで「Call of Duty: Warzone」のCalderaマップのデータセットがオープンソースで公開される

2024/08/02 6 users GitHub Warzone Activision 学術目的

人気ファーストパーソン・シューティングゲームである「Call of Duty」シリーズを手がけるActivisionが、2020年にリリースされたPC向けの基本プレイ無料のバトルロイヤルゲーム「Call of Duty: Warzone」のCalderaマップのオープンソースデータセットを学術目的で公開したことを発表しました。 GitHub - Activision/cald... 続きを読む

Meta、動画内アイテム識別AIモデル「SAM 2」をApache 2.0で公開

2024/07/30 10 users Meta GitHub 米Meta 重みライセンス

米Metaは7月29日（現地時間）、動画内のアイテムも識別できるAIモデル「Segment Anything Model 2」（SAM 2）を発表した。コードとモデルの重みを「Apache 2.0」ライセンスの下、GitHubで公開した。また、SAM 2の構築に使ったデータセット「SA-V」を「CC BY 4.0」ライセンスでMetaのサイトで公開した。このデータセット... 続きを読む

1兆のテキストトークン・34億個の画像・PDF・ArXivの論文などを含むオープンソースのデータセット「MINT-1T」をSalesforceが公開

2024/07/25 16 users GitHub SalesForce arXiv 論文公開

クラウドコンピューティングサービスを提供するSalesforceのAI研究部門・Salesforce AI Researchが、1兆ものテキストトークンを含むオープンソースのマルチモーダルデータセット「MINT-1T」を公開しました。 GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset. https://gi... 続きを読む

AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論

2024/07/18 9 users YouTube Appl NVIDIA 字幕反論

非営利の研究団体が作成したAI学習用のデータセット「The Pile」にYouTubeの字幕が含まれていたことを受け、このデータセットを使用したとされるAppleやNVIDIAが非難されました。これに対し、Appleは「研究用の言語モデルに使用したが、AppleのAI機能であるApple Intelligenceには使用していない」と反論しました。 Appl... 続きを読む

NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース

2024/06/15 7 users NVIDIA LLM リリース商用利用可米NVIDIA

米NVIDIAは6月14日（現地時間）、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス（PDF）の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発... 続きを読む

画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能

2024/06/11 18 users Stable Diffusion 身元 LAION-5B

画像生成AIのStable Diffusionなどのトレーニングには、約58億5000万もの画像とテキストの組み合わせからなるデータセット「LAION-5B」が用いられています。新たに人権NGOのヒューマン・ライツ・ウォッチ(HRW)が、LAION-5Bにはブラジルの子どもたちの写真が同意なしで使われており、多くの子どもたちは身元まで追跡可能... 続きを読む

日本のアニメなどから収集したデータセット「Sakuga-42M」　国際研究チームが公開　「学術研究でのみ使用可能」

2024/05/24 40 users 学術研究アニメ国際研究チーム公開使用

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X：＠shiropen2 カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文... 続きを読む

LLMプロダクト開発における独自評価基準とデータセットの作り方の考察

2024/04/22 6 users LLMプロダクト開発考察評価基準作り方

- {place_name}の主要な観光スポットを網羅できているか - 各観光スポットの特徴や見どころを具体的に説明できているか - アクセス方法や所要時間など、実用的な情報を提供できているか - 主観的な意見を述べていないか - 明るく丁寧な口調を維持できているか [ { "input": { "place_name": "鎌倉" }, "output": "鎌倉は... 続きを読む

Adobeの画像生成AI「Firefly」の学習用データセットにMidjourneyなど別の画像生成AIが生成した画像が全体の約5％ほど混入していることが判明

2024/04/15 21 users firefly Midjourney ライブラリスク判明

Adobeの画像生成AI「Firefly」は、Adobe Stockという写真や映像のライブラリでトレーニングされていることが特徴で、インターネット上の画像をスクレイピングして学習した他の画像生成AIと異なり、商業的にも安全なAIだとAdobeは主張しています。しかし、実際はFireflyの学習したデータセットにMidjourneyなどによって生... 続きを読む

機械学習による株価予測 - Qiita

2024/03/24 173 users Qiita Aidemy 目次株価予測反省

こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。目次 1．目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構... 続きを読む

クリスタに画像生成AIを搭載する予定ない──提供元セルシスが発表　「データセットがクリーンなものしか使わない」

2024/02/22 14 users グリスタセルシス画像生成AI 声明ユー

クリスタに画像生成AIが搭載する予定はない──イラスト作成ソフト「CLIP STUDIO PAINT」（クリスタ）を販売するセルシスは、そんな声明をX上に投稿した。クリスタに画像生成AIが搭載する予定はない──イラスト作成ソフト「CLIP STUDIO PAINT」（クリスタ）を販売するセルシスは2月21日、公式Xでこう表明した。一部のユー... 続きを読む

日本語LLMの学習に向けたデータ前処理

2024/01/22 8 users 日本語LLM テキスト言語モデル web 学習

はじめに大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。本記事では、言語検出、テキスト正規化、テキストのチ... 続きを読む

Google、医療特化の大規模言語モデル「MedLM」の提供開始

2023/12/14 11 users LLM 大規模言語モデル Google 提供開始米国

Googleは、医療業界向けの新たなLLM「MedLM」を米国で提供開始した。「PaLM 2」ベースのLLMを医療関連の膨大なデータセットでトレーニングしたもの。医療研究、医療診断、医療文書作成など、多様な医療用途に使用できるとしている。米Googleは12月13日（現地時間）、医療業界向けの新しい大規模言語モデル（LLM）、「Me... 続きを読む

AIの訓練のために… 新興国の10代の若者たちがトラウマになるようなコンテンツにさらされている

2023/11/22 9 users トラウマ訓練新興国 Wired コンテンツ

パキスタン在住の15歳の少年は放課後、人工知能（AI）の訓練に使われるデータセットを作る手伝いをするウェブサイトにログインしてお金を稼いでいるとWiredに語った。アルゴリズムの訓練をクラウドソーシングしているこのサイトで、少年は時給1～2ドル（約150～200円）稼いでいるという。｢コンテンツ・モデレーション ... 続きを読む

［NumPy超入門］箱ひげ図とヒストグラムを使ってデータセットを可視化してみよう

2023/11/17 9 users ヒストグラム箱ひげ図可視化

連載概要本連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基本的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩... 続きを読む

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

2023/11/11 169 users 大抵データサイエンティスト性質渋谷駅前データ分析

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。しかし... 続きを読む

【scRNA-seq】scRNA-seqデータセットを結合する方法【Seurat】 - LabCode

2023/09/20 5 users RNA-seq解析データ scRNA-seq seurat

single cell RNA-seq解析はある程度できるようになったけど、複数のデータセットを扱った解析はまだできないという方はいるのではないでしょうか。この記事ではsingle cell RNA-seq解析の複数のデータセットを統合する方法を紹介します。これにより、複数の実験から得られたsingle cell RNA-seq解析データを扱うことが... 続きを読む

自分のイラストや写真を画像生成AIが学習するのを妨害する電子透かしを入れるツール「Mist」

2023/08/27 11 users Mist Midjourney 電子透かし議論画像生成AI

Stable DiffusionやMidjourneyなどの画像生成AIはデータセットの画像から学習していますが、このデータセットに含まれる画像の著作権については議論があり、「自分のイラストや写真をAIに学習されたくない」という人も多くいます。上海交通大学の研究チームが発表した「Mist」は画像に見えない透かしを入れることで、AI... 続きを読む

Meta、コード生成や解釈に特化した大規模言語モデル「Code Llama」公開

2023/08/27 54 users Meta プロンプト Code Llama 解釈生成

Metaは、コードもしくは自然言語によるプロンプトから、コードの生成およびコードに関する自然言語の説明を生成できる大規模言語モデル「Code Llama」を公開しました。 Code Llamaは、先月（2023年7月）にMetaが発表した大規模言語モデル「Llama 2」をベースに、コードに特化したデータセットでさらに訓練したバージョン... 続きを読む

Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される

2023/08/21 8 users Meta Llama デンマークトレーニング書籍

デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Gro... 続きを読む

OpenAIはChatGPTを消去して作り直さなければならないかも知れない | TEXAL

2023/08/18 20 users OpenAI chatgpt TEXAL TOS スク

New York Times紙がサービス利用規約（TOS）を更新し、AI企業がAIモデルを訓練するために記事や画像をスクレイピングすることを禁止していることが明らかになったが、どうやら事態はそれだけでは収まらないようだ。 New York Times紙はOpenAIを提訴する準備を進めており、その結果次第ではChatGPTのデータセットは再構築... 続きを読む

(1 - 25 / 147件)

次の25件 »