タグ「データセット」

タグデータセット

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 26件)

商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開｜AI Picasso

2024/09/09 127 users 文章英語モデル学習画像開発

これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。日本語と英語の文章がそのまま... 続きを読む

機械学習による株価予測 - Qiita

2024/03/24 173 users Qiita Aidemy 目次株価予測反省

こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。目次 1．目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構... 続きを読む

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

2023/11/11 169 users 大抵データサイエンティスト性質渋谷駅前データ分析

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。しかし... 続きを読む

初心者が言語モデルを勉強するための本（2023年6月版） - ぱたへね

2023/06/22 107 users 言語モデル初心者 LLM GPT Deep learning

流行のLLMを勉強したくて沢山本を読みました。この後もしばらくLLM（GPT）関係の出版が続きそうなので、現状の本でまとめてみました。参考： nowokay.hatenablog.com まとめ。 Tranformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門言語モデルをデータセットを作る所から... 続きを読む

画像生成AIに抗議するため著作権に厳しいディズニー・任天堂・マーベルなどのキャラクターのAIによる自動生成画像をばらまく

2022/12/16 132 users マーベル任天堂 Midjourney 画像生成AI 著作権

Stable DiffusionやMidjourneyのような画像生成AIは、学習時に使われるデータセットに含まれる画像が著作権を無視して収集されているという問題があり、議論の対象となっています。そんな画像生成AIに抗議するため、あえてディズニーや任天堂などの著作権に厳しいキャラクターの画像を生成して疑問を呈する人が登場した... 続きを読む

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

2022/12/07 292 users Qiita マシンスペック Kaggleコンペ CSVデータ

はじめにこの記事は，Kaggle Advent Calendar 2022第6日目の記事になります。本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニックについて解説します。 Kaggleコンペに限らず、マシンスペックが低いため、大きなデータセットを満足に処理できず困っている毎回行... 続きを読む

インターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性

2022/10/20 124 users 誤字誤字脱字発達自動生成サイバー攻撃

画像や文章の自動生成、顔認識、ゲームのプレイなど、人間の行動を模倣するAIを開発するためには、膨大なデータセットで学習する必要があります。データセットの内容にはインターネットに存在する画像や文章が使われるケースが多くありますが、このインターネット上にある文章に含まれる誤字がAIの発達に大きな影響を及... 続きを読む

画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ

2022/10/04 304 users Stable Diffusion ノイズ潜在拡散モデル

画像生成AIのStable Diffusionは、ノイズを除去することで画像を生成する「潜在拡散モデル」で、オープンソースで開発されて2022年8月に一般公開されたため、学習用のデータセットを変えることで特定の画像を生成するのに特化したフォークモデルが多数存在します。そんなStable Diffusionから派生して生まれた特化型モデ... 続きを読む

Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記

2022/09/18 213 users キャプション Clip TadaoYamaoka ギャ前回

前回、Stable Diffusionをdanbooruデータセットを使用して追加学習することを試した。今回は、自分でデータセットを作成して追加学習することを試す。データセットには、画像とキャプションが揃っている必要があり、キャプションがない場合はCLIPで疑似ラベルを生成するなどする必要がある。今回は、画像に対するキャ... 続きを読む

画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ

2022/09/15 145 users GitHub Stable Diffusion イラスト

2022年8月に一般公開された画像生成AI「Stable Diffusion」を二次元イラスト490万枚以上のデータセットでチューニングした画像生成AIが「Waifu-Diffusion」です。このWaifu-DiffusionをローカルのWindows環境で実行するために、実際にモデルデータをダウンロードして導入してみました。 GitHub - harubaru/waifu-diffusi... 続きを読む

23億枚もの画像で構成された画像生成AI「Stable Diffusion」のデータセットのうち1200万枚がどこから入手した画像かを調査した結果が公開される

2022/08/31 216 users Stable Diffusion 画像生成AI 手法指示

画像生成AI「Stable Diffusion」は入力したキーワードに沿って画像を出力してくれるAIで、簡単なお絵かきとキーワードを合わせて意図した画像を生成したり、「この画像っぽい○○」といった指示でイメージを形にできたりと、さまざまな機能や手法が生み出されています。そんなStable Diffusionについて、「画像を学習するA... 続きを読む

機械 on Twitter: "コーネル大学図書館が運営するアーカイブサイトに、米大統領選に関するデマアカウントのデータセットが載ってる日本からは下記の方などが無事全米デビュー @ganaha_masako　

2021/07/25 100 users アーカイブサイト KadotaRyusho 門田隆将下記

コーネル大学図書館が運営するアーカイブサイトに、米大統領選に関するデマアカウントのデータセットが載ってる日本からは下記の方などが無事全米デビュー @ganaha_masako　我那覇真子 @KadotaRyusho　門田隆将… https://t.co/XEoGnSHhle 続きを読む

ウェブサービスで最初の1000人のユーザーを獲得するために行うべき8つのこと - GIGAZINE

2021/02/14 389 users GIGAZINE ウェブサービス最初努力アドバイス

ウェブサービスを開発しても、実際にユーザーに手に取ってもらえるようになるまでには時間と努力が必要です。どうすればユーザーが自社サイトを訪れてくれるのか、どうすればユーザーが定着するのかというアドバイスを、データセットを販売する企業「YipitData」の共同創設者兼CEOであるヴィニシウス・ヴァカンティ氏が... 続きを読む

超巨大高性能モデルGPT-3の到達点とその限界. この記事では、超巨大言語モデルGPT-3の技術的な解説、GPT-3達成したことと… | by akira | Jul, 2020 | Medium

2020/07/24 254 users サマリ Jul medium GPT-2 gpt-3

この記事についてこの記事ではGPT-3[1]の解説をします。内容のサマリは以下の通りです。 GPT-3の前身であるGPT-2では、巨大なデータセット＋巨大なネットワークで言語モデルを構築し、各タスクで学習させなくても良い結果が得られた。GPT-3では、さらに巨大なデータセット＋さらに巨大なネットワークで言語モデルを構築... 続きを読む

データの匿名化はウソだと欧州の研究者グループが解明 | TechCrunch Japan

2019/07/25 176 users 解明ウソ欧州 TechCrunch JAPAN 匿名化

ヨーロッパの2つの大学の研究者たちが、匿名化されたデータセットから、たった15のデモグラフィック属性から99.98%の精度で個人を再識別できるとされる方法を公表した。個人情報の複雑なデータセットは、情報サンプル（サブセット）を分離するといった今の匿名化方式では再特定を防げないことを、彼らのモデルは示唆し... 続きを読む

【20個掲載】機械学習に使えるスポーツ関連のデータセット | Gengo AI

2019/05/08 173 users Gengo AI 機械学習再現サッカースポーツ関連

公開されているスポーツ関連データセットが不足していることが、近代的かつ再現可能な研究やスポーツ分析の妨げになっています。Gengo AIはお客様のお役に立てるよう、機械学習に使えるオープンデータセットをスポーツごとにまとめてみました。 ⚽️ サッカーに関するデータセットサッカーデータベース: サッカーに関する... 続きを読む

【13個掲載】機械学習に使える日本語のデータセットまとめ - Qiita

2019/03/25 348 users ポータルサイト Qiita 言語処理再編集連載記事

※本記事は、GengoAI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。本記事は、日本語のデータセットを紹介いたします。日本語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日本語のテキストデータセットを... 続きを読む

Python: 機械学習における不均衡データの問題点と対処法について - CUBE SUGAR CONTAINER

2018/12/16 183 users Python 検知不均衡データラベル機械学習

機械学習における分類問題では、扱うデータセットに含まれるラベルに偏りのあるケースがある。これは、例えば異常検知の分野では特に顕著で、異常なデータというのは正常なデータに比べると極端に数が少ない。正常なデータが 99.99% なのに対し異常なデータは 0.01% なんてこともある。このようなデータセットは不均... 続きを読む

斜めに写った画像をCanvasで矩形に補正する - すぎゃーんメモ

2018/09/03 211 users canvas 矩形すぎゃー人力ラベル

将棋駒画像分類の話の続きのような、あんまり関係もないような。 memo.sugyan.com memo.sugyan.com 結局、素材を組み合わせて自動で生成しただけの駒画像ではやはりデータが足りていないようで、「やはりもっと様々な画像から人力でラベル付けしてデータセットを作っていく必要がありそう」ということになった。とはい... 続きを読む

機械学習に使えるオープンデータセットベスト50 - Gengo AI

2018/08/06 651 users Gengo AI 機械学習 Gengo Kaggle リスト

機械学習に使えるオープンソースのデータセットには、どのようなものがあるでしょうか。Gengoは、クオリティの高いデータセットのリストを作ってみました。巨大な（Kaggleのような）ものから、極度に対象を絞った（自動運転車のデータ）まで、様々なデータセットがあります。データセットを探す際に、まず心に留めてお... 続きを読む

機械学習のデータセットを可視化する「Facets」で遊んでみた - paiza開発日誌

2017/07/24 113 users facets paiza開発日誌秋山プログラミング可視化

2017 - 07 - 24 機械学習のデータセットを可視化する「Facets」で遊んでみたプログラミングプログラミング初心者プログラミング学習 Webサービス紹介機械学習秋山です。先日、 Google Open Sourceで「 Facets 」という機械学習向けデータセットの可視化ツールが公開されました。サイトはこちら opensource.googleblog.co... 続きを読む

jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm

2014/10/18 109 users Scaled_Wurm JSON jqコマンド CSV 以下

2014-10-17 jqコマンドでJSONをCSVに変換する jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドですニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurmマニュアルを見る... 続きを読む

機械学習とかに使えそうなデータセット - pixyzehn blog

2014/07/21 342 users pixyzehn blog 機械学習健太知見論文

2014-07-20 機械学習とかに使えそうなデータセット Tips photo by Régis Gaidot データセットとかの知見を集めました。いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。奥健太 - 情報推薦研究ツールボックス grouplensのデータセットは、論文などにも利用され... 続きを読む

Microsoft、Office 365でPower BIを正式公開―会社内外のビッグデータを分析してビジュアル化できる強力ツール | TechCrunch Japan

2014/02/10 146 users Microsoft Excel Power BI 言語ツール

半年以上にわたって限定プレビューを続けた後、今日（米国時間2/10）、MicrosoftはPower BI for Office 365を正式公開した。これはOffice 365のエンタープライズ・ユーザー向けの強力なビジネス・インテリジェンス・ツールだ。ユーザーはExcelと同時に利用することによって巨大なデータセットを自然言語で検索し、モデル化して分析することができる。またExcelに加えて... 続きを読む

ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm

2013/06/15 325 users インフォニコ動情報学研究データリポジトリ手順所属

2013-06-15 ニコニコ動画のデータセットが公開されたらしい研究用にニコニコ動画のコメント約300GBを公開‐ニコニコインフォ情報学研究データリポジトリニコニコ動画コメント等データ国立情報学研究所のダウンロードサービスでニコ動のデータセットが公開されていたので、とりあえずダウンロードしてみましたダウンロードの手順以下のページで、名前、メールアドレス、所属を入力すればよいみたいです... 続きを読む

(1 - 25 / 26件)

次の25件 »