タグ データセット
人気順 10 users 50 users 100 users 500 users 1000 users「Bluesky運営元はユーザーの投稿をAI学習に使わないが第三者はAI学習できてしまう」という実例が登場、BlueskyのAPI経由で100万投稿分のデータセットがHugging Faceで公開されてしまう
2024年11月に利用規約を更新したX(旧Twitter)では、投稿をAI学習に利用することを明文化しました。これを受けて、多くのユーザーが「投稿をAIのトレーニングに利用することはない」と表明している競合SNSのBlueskyに移行しています。しかし、BlueskyのAPI経由で入手した100万投稿分のデータセットがHugging Face上で公開... 続きを読む
商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso
これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。 日本語と英語の文章がそのまま... 続きを読む
バクラクのデータセットを用いた項目領域推定とレイアウト情報の重要性 - LayerX エンジニアブログ
こんにちは。機械学習エンジニアの上川です。本記事では、バクラクのデータを用いて書類上の項目領域を推定する物体検出モデルを構築し、項目領域の推定におけるレイアウト情報の重要性について考察を行ったので、その紹介をします。 AI-OCRにおけるレイアウト情報の重要性 弊社のバクラクにはAI-OCRという機能があり、... 続きを読む
GitHubで「Call of Duty: Warzone」のCalderaマップのデータセットがオープンソースで公開される
人気ファーストパーソン・シューティングゲームである「Call of Duty」シリーズを手がけるActivisionが、2020年にリリースされたPC向けの基本プレイ無料のバトルロイヤルゲーム「Call of Duty: Warzone」のCalderaマップのオープンソースデータセットを学術目的で公開したことを発表しました。 GitHub - Activision/cald... 続きを読む
Meta、動画内アイテム識別AIモデル「SAM 2」をApache 2.0で公開
米Metaは7月29日(現地時間)、動画内のアイテムも識別できるAIモデル「Segment Anything Model 2」(SAM 2)を発表した。コードとモデルの重みを「Apache 2.0」ライセンスの下、GitHubで公開した。 また、SAM 2の構築に使ったデータセット「SA-V」を「CC BY 4.0」ライセンスでMetaのサイトで公開した。このデータセット... 続きを読む
1兆のテキストトークン・34億個の画像・PDF・ArXivの論文などを含むオープンソースのデータセット「MINT-1T」をSalesforceが公開
クラウドコンピューティングサービスを提供するSalesforceのAI研究部門・Salesforce AI Researchが、1兆ものテキストトークンを含むオープンソースのマルチモーダルデータセット「MINT-1T」を公開しました。 GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset. https://gi... 続きを読む
AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論
非営利の研究団体が作成したAI学習用のデータセット「The Pile」にYouTubeの字幕が含まれていたことを受け、このデータセットを使用したとされるAppleやNVIDIAが非難されました。これに対し、Appleは「研究用の言語モデルに使用したが、AppleのAI機能であるApple Intelligenceには使用していない」と反論しました。 Appl... 続きを読む
NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発... 続きを読む
画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能
画像生成AIのStable Diffusionなどのトレーニングには、約58億5000万もの画像とテキストの組み合わせからなるデータセット「LAION-5B」が用いられています。新たに人権NGOのヒューマン・ライツ・ウォッチ(HRW)が、LAION-5Bにはブラジルの子どもたちの写真が同意なしで使われており、多くの子どもたちは身元まで追跡可能... 続きを読む
日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文... 続きを読む
LLMプロダクト開発における独自評価基準とデータセットの作り方の考察
- {place_name}の主要な観光スポットを網羅できているか - 各観光スポットの特徴や見どころを具体的に説明できているか - アクセス方法や所要時間など、実用的な情報を提供できているか - 主観的な意見を述べていないか - 明るく丁寧な口調を維持できているか [ { "input": { "place_name": "鎌倉" }, "output": "鎌倉は... 続きを読む
Adobeの画像生成AI「Firefly」の学習用データセットにMidjourneyなど別の画像生成AIが生成した画像が全体の約5%ほど混入していることが判明
Adobeの画像生成AI「Firefly」は、Adobe Stockという写真や映像のライブラリでトレーニングされていることが特徴で、インターネット上の画像をスクレイピングして学習した他の画像生成AIと異なり、商業的にも安全なAIだとAdobeは主張しています。しかし、実際はFireflyの学習したデータセットにMidjourneyなどによって生... 続きを読む
機械学習による株価予測 - Qiita
こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構... 続きを読む
クリスタに画像生成AIを搭載する予定ない──提供元セルシスが発表 「データセットがクリーンなものしか使わない」
クリスタに画像生成AIが搭載する予定はない──イラスト作成ソフト「CLIP STUDIO PAINT」(クリスタ)を販売するセルシスは、そんな声明をX上に投稿した。 クリスタに画像生成AIが搭載する予定はない──イラスト作成ソフト「CLIP STUDIO PAINT」(クリスタ)を販売するセルシスは2月21日、公式Xでこう表明した。一部のユー... 続きを読む
日本語LLMの学習に向けたデータ前処理
はじめに 大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。 本記事では、言語検出、テキスト正規化、テキストのチ... 続きを読む
Google、医療特化の大規模言語モデル「MedLM」の提供開始
Googleは、医療業界向けの新たなLLM「MedLM」を米国で提供開始した。「PaLM 2」ベースのLLMを医療関連の膨大なデータセットでトレーニングしたもの。医療研究、医療診断、医療文書作成など、多様な医療用途に使用できるとしている。 米Googleは12月13日(現地時間)、医療業界向けの新しい大規模言語モデル(LLM)、「Me... 続きを読む
AIの訓練のために… 新興国の10代の若者たちがトラウマになるようなコンテンツにさらされている
パキスタン在住の15歳の少年は放課後、人工知能(AI)の訓練に使われるデータセットを作る手伝いをするウェブサイトにログインしてお金を稼いでいるとWiredに語った。 アルゴリズムの訓練をクラウドソーシングしているこのサイトで、少年は時給1~2ドル(約150~200円)稼いでいるという。 「コンテンツ・モデレーション ... 続きを読む
[NumPy超入門]箱ひげ図とヒストグラムを使ってデータセットを可視化してみよう
連載概要 本連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基本的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩... 続きを読む
データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし... 続きを読む
【scRNA-seq】scRNA-seqデータセットを結合する方法【Seurat】 - LabCode
single cell RNA-seq解析はある程度できるようになったけど、複数のデータセットを扱った解析はまだできないという方はいるのではないでしょうか。 この記事ではsingle cell RNA-seq解析の複数のデータセットを統合する方法を紹介します。 これにより、複数の実験から得られたsingle cell RNA-seq解析データを扱うことが... 続きを読む
自分のイラストや写真を画像生成AIが学習するのを妨害する電子透かしを入れるツール「Mist」
Stable DiffusionやMidjourneyなどの画像生成AIはデータセットの画像から学習していますが、このデータセットに含まれる画像の著作権については議論があり、「自分のイラストや写真をAIに学習されたくない」という人も多くいます。上海交通大学の研究チームが発表した「Mist」は画像に見えない透かしを入れることで、AI... 続きを読む
Meta、コード生成や解釈に特化した大規模言語モデル「Code Llama」公開
Metaは、コードもしくは自然言語によるプロンプトから、コードの生成およびコードに関する自然言語の説明を生成できる大規模言語モデル「Code Llama」を公開しました。 Code Llamaは、先月(2023年7月)にMetaが発表した大規模言語モデル「Llama 2」をベースに、コードに特化したデータセットでさらに訓練したバージョン... 続きを読む
Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Gro... 続きを読む
OpenAIはChatGPTを消去して作り直さなければならないかも知れない | TEXAL
New York Times紙がサービス利用規約(TOS)を更新し、AI企業がAIモデルを訓練するために記事や画像をスクレイピングすることを禁止していることが明らかになったが、どうやら事態はそれだけでは収まらないようだ。 New York Times紙はOpenAIを提訴する準備を進めており、その結果次第ではChatGPTのデータセットは再構築... 続きを読む
OpenAIがインターネット上のコンテンツ収集に用いるウェブクローラー「GPTBot」をブロックする試みが進行中
対話型AIのChatGPTを開発するOpenAIは2023年8月に、大規模言語モデルの学習に必要なデータセットをインターネット上から収集するためのウェブクローラー「GPTBot」に関する詳細を公開しました。GPTBotに関するオンラインドキュメントには、GPTBotによるコンテンツの収集を防ぐための方法も記載されており、一部のウェブ... 続きを読む