はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ データセット

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 44件)

商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso

2024/09/09 このエントリーをはてなブックマークに追加 127 users Instapaper Pocket Tweet Facebook Share Evernote Clip 文章 英語 モデル 学習画像 開発

これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。 日本語と英語の文章がそのまま... 続きを読む

機械学習による株価予測 - Qiita

2024/03/24 このエントリーをはてなブックマークに追加 173 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita Aidemy 目次 株価予測 反省

こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構... 続きを読む

データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

2023/11/11 このエントリーをはてなブックマークに追加 169 users Instapaper Pocket Tweet Facebook Share Evernote Clip 大抵 データサイエンティスト 性質 渋谷駅前 データ分析

前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし... 続きを読む

Meta、コード生成や解釈に特化した大規模言語モデル「Code Llama」公開

2023/08/27 このエントリーをはてなブックマークに追加 54 users Instapaper Pocket Tweet Facebook Share Evernote Clip Meta プロンプト Code Llama 解釈 生成

Metaは、コードもしくは自然言語によるプロンプトから、コードの生成およびコードに関する自然言語の説明を生成できる大規模言語モデル「Code Llama」を公開しました。 Code Llamaは、先月(2023年7月)にMetaが発表した大規模言語モデル「Llama 2」をベースに、コードに特化したデータセットでさらに訓練したバージョン... 続きを読む

初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね

2023/06/22 このエントリーをはてなブックマークに追加 107 users Instapaper Pocket Tweet Facebook Share Evernote Clip 言語モデル 初心者 LLM GPT Deep learning

流行のLLMを勉強したくて沢山本を読みました。 この後もしばらくLLM(GPT)関係の出版が続きそうなので、現状の本でまとめてみました。 参考: nowokay.hatenablog.com まとめ。 Tranformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門 言語モデルをデータセットを作る所から... 続きを読む

AIが生成した画像のもとになった画像の帰属を示すサービス「Stable Attribution」

2023/02/06 このエントリーをはてなブックマークに追加 74 users Instapaper Pocket Tweet Facebook Share Evernote Clip 画像生成AI 帰属 もと 画像 内容

画像生成AIは、無から画像を生み出しているわけではなく、膨大なデータセットで学習した内容から求められた画像を出力しています。そこで、出力された画像をもとにして、データセット内のどういった画像がもとになったのかわかるサービスが「Stable Attribution」です。 Stable Attribution https://www.stableattributi... 続きを読む

画像生成AIに抗議するため著作権に厳しいディズニー・任天堂・マーベルなどのキャラクターのAIによる自動生成画像をばらまく

2022/12/16 このエントリーをはてなブックマークに追加 132 users Instapaper Pocket Tweet Facebook Share Evernote Clip マーベル 任天堂 Midjourney 画像生成AI 著作権

Stable DiffusionやMidjourneyのような画像生成AIは、学習時に使われるデータセットに含まれる画像が著作権を無視して収集されているという問題があり、議論の対象となっています。そんな画像生成AIに抗議するため、あえてディズニーや任天堂などの著作権に厳しいキャラクターの画像を生成して疑問を呈する人が登場した... 続きを読む

画像生成AI「Stable Diffusion」などの開発に大きな貢献を果たした超巨大データセット「LAION-5B」とは?

2022/12/13 このエントリーをはてなブックマークに追加 69 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stable Diffusion アルゴリズム 精度 ペア

AIを構築する上ではアルゴリズムだけでなく訓練用のデータセットも重要であり、データセットの質によってAIの精度も大きく左右されます。高精度な画像生成AIとして話題のStable Diffusionでは、「LAION-5B」という50億以上もの画像とテキストのペアを含むデータセットを用いています。 LAION-5B: A NEW ERA OF OPEN LARG... 続きを読む

1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

2022/12/07 このエントリーをはてなブックマークに追加 292 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita マシンスペック Kaggleコンペ CSVデータ

はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行... 続きを読む

インターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性

2022/10/20 このエントリーをはてなブックマークに追加 124 users Instapaper Pocket Tweet Facebook Share Evernote Clip 誤字 誤字脱字 発達 自動生成 サイバー攻撃

画像や文章の自動生成、顔認識、ゲームのプレイなど、人間の行動を模倣するAIを開発するためには、膨大なデータセットで学習する必要があります。データセットの内容にはインターネットに存在する画像や文章が使われるケースが多くありますが、このインターネット上にある文章に含まれる誤字がAIの発達に大きな影響を及... 続きを読む

画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ

2022/10/04 このエントリーをはてなブックマークに追加 304 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stable Diffusion ノイズ 潜在拡散モデル

画像生成AIのStable Diffusionは、ノイズを除去することで画像を生成する「潜在拡散モデル」で、オープンソースで開発されて2022年8月に一般公開されたため、学習用のデータセットを変えることで特定の画像を生成するのに特化したフォークモデルが多数存在します。そんなStable Diffusionから派生して生まれた特化型モデ... 続きを読む

Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記

2022/09/18 このエントリーをはてなブックマークに追加 213 users Instapaper Pocket Tweet Facebook Share Evernote Clip キャプション Clip TadaoYamaoka ギャ 前回

前回、Stable Diffusionをdanbooruデータセットを使用して追加学習することを試した。 今回は、自分でデータセットを作成して追加学習することを試す。 データセットには、画像とキャプションが揃っている必要があり、キャプションがない場合はCLIPで疑似ラベルを生成するなどする必要がある。 今回は、画像に対するキャ... 続きを読む

画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ

2022/09/15 このエントリーをはてなブックマークに追加 145 users Instapaper Pocket Tweet Facebook Share Evernote Clip GitHub Stable Diffusion イラスト

2022年8月に一般公開された画像生成AI「Stable Diffusion」を二次元イラスト490万枚以上のデータセットでチューニングした画像生成AIが「Waifu-Diffusion」です。このWaifu-DiffusionをローカルのWindows環境で実行するために、実際にモデルデータをダウンロードして導入してみました。 GitHub - harubaru/waifu-diffusi... 続きを読む

23億枚もの画像で構成された画像生成AI「Stable Diffusion」のデータセットのうち1200万枚がどこから入手した画像かを調査した結果が公開される

2022/08/31 このエントリーをはてなブックマークに追加 216 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stable Diffusion 画像生成AI 手法 指示

画像生成AI「Stable Diffusion」は入力したキーワードに沿って画像を出力してくれるAIで、簡単なお絵かきとキーワードを合わせて意図した画像を生成したり、「この画像っぽい○○」といった指示でイメージを形にできたりと、さまざまな機能や手法が生み出されています。そんなStable Diffusionについて、「画像を学習するA... 続きを読む

機械 on Twitter: "コーネル大学図書館が運営するアーカイブサイトに、米大統領選に関するデマアカウントのデータセットが載ってる 日本からは下記の方などが無事全米デビュー @ganaha_masako 

2021/07/25 このエントリーをはてなブックマークに追加 100 users Instapaper Pocket Tweet Facebook Share Evernote Clip アーカイブサイト KadotaRyusho 門田隆将 下記

コーネル大学図書館が運営するアーカイブサイトに、米大統領選に関するデマアカウントのデータセットが載ってる 日本からは下記の方などが無事全米デビュー @ganaha_masako 我那覇真子 @KadotaRyusho 門田隆将… https://t.co/XEoGnSHhle 続きを読む

ウェブサービスで最初の1000人のユーザーを獲得するために行うべき8つのこと - GIGAZINE

2021/02/14 このエントリーをはてなブックマークに追加 389 users Instapaper Pocket Tweet Facebook Share Evernote Clip GIGAZINE ウェブサービス 最初 努力 アドバイス

ウェブサービスを開発しても、実際にユーザーに手に取ってもらえるようになるまでには時間と努力が必要です。どうすればユーザーが自社サイトを訪れてくれるのか、どうすればユーザーが定着するのかというアドバイスを、データセットを販売する企業「YipitData」の共同創設者兼CEOであるヴィニシウス・ヴァカンティ氏が... 続きを読む

超巨大高性能モデルGPT-3の到達点とその限界. この記事では、超巨大言語モデルGPT-3の技術的な解説、GPT-3達成したことと… | by akira | Jul, 2020 | Medium

2020/07/24 このエントリーをはてなブックマークに追加 254 users Instapaper Pocket Tweet Facebook Share Evernote Clip サマリ Jul medium GPT-2 gpt-3

この記事についてこの記事ではGPT-3[1]の解説をします。内容のサマリは以下の通りです。 GPT-3の前身であるGPT-2では、巨大なデータセット+巨大なネットワークで言語モデルを構築し、各タスクで学習させなくても良い結果が得られた。GPT-3では、さらに巨大なデータセット+さらに巨大なネットワークで言語モデルを構築... 続きを読む

Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開 - GIGAZINE

2019/10/03 このエントリーをはてなブックマークに追加 77 users Instapaper Pocket Tweet Facebook Share Evernote Clip アルゴリズム 順序 訓練 GIGAZINE 構造

by Nicole Honeywill 自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50%から80%にまで向上するとのことです。 Google AI Blog: Releasing PAWS and PAWS-... 続きを読む

兵庫県の病院が「眼底画像」データセット1万3000枚を無料公開 「AI研究・教育に使って」 - ITmedia NEWS

2019/07/26 このエントリーをはてなブックマークに追加 76 users Instapaper Pocket Tweet Facebook Share Evernote Clip ITmedia News AI研究 病院 教育 兵庫県

2011年から2018年にかけて、計5389人から収集した眼底画像だという。眼底画像のデータセットには、加齢黄斑変性症、緑内障、網膜剥離(はくり)、糖尿病など9種類の症例画像がタグとともに記録されている。 ツカザキ病院眼科は04年から臨床データベース構築に取り組んでおり、現在は7人のAIエンジニアが眼底画像の自動診... 続きを読む

データの匿名化はウソだと欧州の研究者グループが解明 | TechCrunch Japan

2019/07/25 このエントリーをはてなブックマークに追加 176 users Instapaper Pocket Tweet Facebook Share Evernote Clip 解明 ウソ 欧州 TechCrunch JAPAN 匿名化

ヨーロッパの2つの大学の研究者たちが、匿名化されたデータセットから、たった15のデモグラフィック属性から99.98%の精度で個人を再識別できるとされる方法を公表した。 個人情報の複雑なデータセットは、情報サンプル(サブセット)を分離するといった今の匿名化方式では再特定を防げないことを、彼らのモデルは示唆し... 続きを読む

Uber社の全部盛りデータ可視化ツールスイート「Vis.gl」一覧 – GUNMA GIS GEEK

2019/07/03 このエントリーをはてなブックマークに追加 62 users Instapaper Pocket Tweet Facebook Share Evernote Clip Vis.gl deck.gl GUNMA GIS GEEK

Vis.gl - Uber Vis Team Uber社がオープンソースとして公開している可視化ツールとでは「Deck.gl」が有名ですが、他にもUber社の持つ巨大なデータセットを分析するために作成されたさまざまなデータ可視化ツールがオープンソースとして公開されています。「Vis.gl」はそれらUber社が作成し公開している可視化ツールをま... 続きを読む

あらゆるデータセットに使える3つの可視化テクニック | Yakst

2019/05/21 このエントリーをはてなブックマークに追加 87 users Instapaper Pocket Tweet Facebook Share Evernote Clip Yakst 3つ

Python の可視化ライブラリである Seaborn を利用して表現豊かなグラフを生成するためのテクニックを紹介する記事です。グラフの選択基準としてデータを構成する値が分類のある値かそれとも連続値であるかに注目しており、この記事を通して実践的なテクニックを身につけることができます。 可視化は素晴らしいものです。... 続きを読む

Big Sky :: SQLite3 でロジスティック回帰

2019/05/11 このエントリーをはてなブックマークに追加 70 users Instapaper Pocket Tweet Facebook Share Evernote Clip ロジスティック回帰 DDL sqlite3 Big Sky

なんとなく SQLite3 でロジスティック回帰できたら面白そうと思ったので作ってみた。 データセットは iris、sqlflow の DDL を使わせて頂いた。 sqlflow/example/datasets at develop · sql-machine-learning/sqlflow - GitHub It should print the number of rows as the following: count(*) 10 Troubleshooting It us... 続きを読む

【20個掲載】機械学習に使えるスポーツ関連のデータセット | Gengo AI

2019/05/08 このエントリーをはてなブックマークに追加 173 users Instapaper Pocket Tweet Facebook Share Evernote Clip Gengo AI 機械学習 再現 サッカー スポーツ関連

公開されているスポーツ関連データセットが不足していることが、近代的かつ再現可能な研究やスポーツ分析の妨げになっています。Gengo AIはお客様のお役に立てるよう、機械学習に使えるオープンデータセットをスポーツごとにまとめてみました。 ⚽️ サッカーに関するデータセットサッカーデータベース: サッカーに関する... 続きを読む

【13個掲載】機械学習に使える日本語のデータセットまとめ - Qiita

2019/03/25 このエントリーをはてなブックマークに追加 348 users Instapaper Pocket Tweet Facebook Share Evernote Clip ポータルサイト Qiita 言語処理 再編集 連載記事

※本記事は、GengoAI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 本記事は、日本語のデータセットを紹介いたします。日本語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日本語のテキストデータセットを... 続きを読む

 
(1 - 25 / 44件)