はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ マルチモーダル化

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 3 / 3件)
 

GPT-4oを使って2Dの図面から3DのCADモデルを作る

2024/05/19 このエントリーをはてなブックマークに追加 161 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4o 図面 OpenAI OCR シロクマ

はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が... 続きを読む

AI作曲でマルチモーダル活用。Suno + ChatGPT + Stable Diffusionを連携させたらエモくなった(CloseBox) | テクノエッジ TechnoEdge

2023/12/14 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip Suno chatgpt CloseBox プロンプト エモ

まず、妻の写真を学習したStable Diffusionから、絵を生成します。プロンプトは、「a photographic portrait of Torichan girl looking up at starry sky」とかなんとか。 これを、マルチモーダル化したChatGPT(GPT-4V)に読み込ませ、「この写真を見て思いついた歌詞を書いてみて」と頼みました。 作詞してくれたのは... 続きを読む

OpenAI GPT-4正式発表、多数の試験で「人間超え」達成。画像も理解するマルチモーダル化、分析・生成文章量8倍など劇的進化の言語生成AIモデル | テクノエッジ TechnoEdge

2023/03/14 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip TechnoEdge テクノエッジ 試験 達成 分析

OpenAI が大規模言語モデル GPT-4 を正式発表しました。 会話型AIとして話題になった ChatGPT に従来使われてきた GPT-3.5 と比較して、多くの点で劇的に進化しています。例を挙げれば、 画像を扱えるマルチモーダル化。何が映っているか、どんな状況かを認識(例:テーブルに載った食材でレシピを考える、風船の紐を切れ... 続きを読む

 
(1 - 3 / 3件)