タグ「GPT-4V」 - はてブログ

タグ GPT-4V

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 15 / 15件)

【MiniCPM-Llama3-V 2.5】たった8BでGPT-4o超えのVLM | WEEL

2024/07/04 5 users VLM WEELメディア事業部LLMライター WEEL 性能

WEELメディア事業部LLMライターのゆうやです。 MiniCPM-Llama3-V 2.5は、中国のOpenBMB（Open Lab for Big Model Base）が開発した最新のオープンソースマルチモーダル言語モデルで、8BというサイズながらGPT-4Vと同等の性能を有しています。 🚀 Excited to introduce MiniCPM-Llama3-V 2.5! With 8B parameters, it’s o... 続きを読む

イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能

2024/04/15 6 users イーロンマルチモーダルAI XAI マスクカロリー

イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。 Grok-1.5 Vision Preview https://x.ai/blog/grok-1.5v Grok-1.... 続きを読む

米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表　GPT-4V越えの性能

2024/04/12 20 users iPhone seamless Ferret-UI 論文執筆

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X：＠shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understandin... 続きを読む

アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

2024/03/18 138 users アップル言語理解 MM1 発表テキスト

アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮複数（30億、70億、300億）のパラメータサイズを備えるMM1は、10億以上の... 続きを読む

Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵

2024/03/18 18 users moe MLLM マルチモーダルLLM パラメータ混合

MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts（MoE）や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。視覚タ... 続きを読む

GPT-4V x LINE Bot を Cloudflare Workers で実現するためにやったこと・やらなかったこと - hatappi.blog

2024/01/01 33 users Cloudflare Workers bot OpenAI

この記事では OpenAI が提供する Vision API (GPT-4V) を使用して、LINE に投稿した画像に反応する Bot を作成した際にやったこと・やらなかったことを書いています。 Bot の実装を細かく解説はしていないので、それを知りたい方は「ChatGPT LINE」などでググると参考になる良い記事が沢山でてくるのでそちらを参照して... 続きを読む

GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

2023/12/18 20 users Taste of Tech Topics chatgpt

こんにちは、安部です。気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか？得意分野ではなさそう... 続きを読む

AI作曲でマルチモーダル活用。Suno + ChatGPT + Stable Diffusionを連携させたらエモくなった（CloseBox） | テクノエッジ TechnoEdge

2023/12/14 9 users CloseBox TechnoEdge chatgpt エモ

まず、妻の写真を学習したStable Diffusionから、絵を生成します。プロンプトは、「a photographic portrait of Torichan girl looking up at starry sky」とかなんとか。これを、マルチモーダル化したChatGPT（GPT-4V）に読み込ませ、「この写真を見て思いついた歌詞を書いてみて」と頼みました。作詞してくれたのは... 続きを読む

【GPT-4V APIのおすすめ活用事例】OpenAIの最新モデルを使ったヤバい使い方10選 | WEEL

2023/12/04 123 users GitHub WEEL API api経由最強AI

みなさん、API経由でGPT-4Vが使えるようになったのはご存知ですか？その名も「GPT-4V API」というモデル名なのですが、GitHubでスター10,000超えのAIツール・tldrawに採用されています。このGPT-4V APIは、アプリ・サービスに目を与えてくれるすぐれものなんです！当記事では、そんなGPT-4V APIの活用事例のうち、SNS... 続きを読む

GPT-4VのAPIをサクッと使ってみる！｜peisuke

2023/11/07 10 users LangChain Python ライブラリ API 現時点

概要昨日発表されたGPT-4VのAPI（画像に対して質問を投げることができるAPI）を早速利用してみたので、サクッと使ってみようと思う。使い方当然ながら、現時点ではLangChainなどのライブラリからは利用できないし、Pythonのライブラリもなさそう（→ありました）。ここに使い方が乗っているので、そのまま使ってみる。ロ... 続きを読む

ChatGPTのGPT-4Vを使ってSQL文を画像から作成する - Taste of Tech Topics

2023/10/18 51 users chatgpt IGA SQL文データベース画像

igaです。ポケモンsleepを継続していますが、カビゴン評価がマスターになれません。 ChatGPTが見たり、聞いたり、話したりできるようになる、と言われている「GPT-4 with vision (GPT-4V)」が使えるようになったので、早速使ってみたいと思います。 openai.com 今回は、データベースのテーブル関連図を画像ファイルでも... 続きを読む

AWSの構成図をChatGPT(GPT-4V)に読み込ませてIaCコードを生成してみた | DevelopersIO

2023/10/15 118 users DevelopersIO chatgpt ぼし AWS 応答

こんにちは、つくぼし(tsukuboshi0755)です！最近ChatGPTがGPT-4Vを発表し、AI業界がさらに盛り上がりを見せてますね。 GPT-4Vを用いる事で、ChatGPTがユーザ側から入力された画像を読み取った上で、応答を返してくれるようになります。 GPT-4V(ision) system card この機能追加により、なんと以下のようにAWSの構成図... 続きを読む

GPT-4Vができることをまとめてみた - ISID テックブログ

2023/10/12 221 users ISID テックブログ ISID 若本 GPT-4 一種

こんにちは。ISID 金融ソリューション事業部の若本です。先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision（GPT-4V）が発表されました。GPT-4Vは大規模マルチモーダルモデル（LMMs: Large multimodal models）と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。今... 続きを読む

GPT-4V: 驚きを隠せない進化！凄すぎて"ズキズキワクワク"が止まりません！！！ - Qiita

2023/10/07 164 users Qiita chatgpt タスク進化実行

この記事で行なっていること凄すぎて”ズキズキワクワク"が止まりませんはじめについこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが... 続きを読む

OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

2023/09/26 15 users OpenAI chatgpt RLHF AIDB DALL-E

画像出力の不明点と可能性現時点でGPT-4Vが画像を出力できるかどうかについては、公式な情報はありません。しかし、OpenAIが開発したDALL-Eなどの画像生成AIとの連携が将来的には考えられる（発表済み）ため、この点には注目が集まっています。 RLHF（人間フィードバック強化学習）による嗜好性の学習 GPT-4Vは、人間フ... 続きを読む