タグ GPT-4V
人気順 5 users 50 users 100 users 500 users 1000 users米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understandin... 続きを読む
アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の... 続きを読む
Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵
MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。 視覚タ... 続きを読む
GPT-4V x LINE Bot を Cloudflare Workers で実現するためにやったこと・やらなかったこと - hatappi.blog
この記事では OpenAI が提供する Vision API (GPT-4V) を使用して、LINE に投稿した画像に反応する Bot を作成した際にやったこと・やらなかったことを書いています。 Bot の実装を細かく解説はしていないので、それを知りたい方は「ChatGPT LINE」などでググると参考になる良い記事が沢山でてくるのでそちらを参照して... 続きを読む
GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそう... 続きを読む
【GPT-4V APIのおすすめ活用事例】OpenAIの最新モデルを使ったヤバい使い方10選 | WEEL
みなさん、API経由でGPT-4Vが使えるようになったのはご存知ですか? その名も「GPT-4V API」というモデル名なのですが、GitHubでスター10,000超えのAIツール・tldrawに採用されています。 このGPT-4V APIは、アプリ・サービスに目を与えてくれるすぐれものなんです! 当記事では、そんなGPT-4V APIの活用事例のうち、SNS... 続きを読む
GPT-4VのAPIをサクッと使ってみる!|peisuke
概要昨日発表されたGPT-4VのAPI(画像に対して質問を投げることができるAPI)を早速利用してみたので、サクッと使ってみようと思う。 使い方当然ながら、現時点ではLangChainなどのライブラリからは利用できないし、Pythonのライブラリもなさそう(→ありました)。ここに使い方が乗っているので、そのまま使ってみる。ロ... 続きを読む
ChatGPTのGPT-4Vを使ってSQL文を画像から作成する - Taste of Tech Topics
igaです。 ポケモンsleepを継続していますが、カビゴン評価がマスターになれません。 ChatGPTが見たり、聞いたり、話したりできるようになる、と言われている「GPT-4 with vision (GPT-4V)」が使えるようになったので、早速使ってみたいと思います。 openai.com 今回は、データベースのテーブル関連図を画像ファイルでも... 続きを読む
AWSの構成図をChatGPT(GPT-4V)に読み込ませてIaCコードを生成してみた | DevelopersIO
こんにちは、つくぼし(tsukuboshi0755)です! 最近ChatGPTがGPT-4Vを発表し、AI業界がさらに盛り上がりを見せてますね。 GPT-4Vを用いる事で、ChatGPTがユーザ側から入力された画像を読み取った上で、応答を返してくれるようになります。 GPT-4V(ision) system card この機能追加により、なんと以下のようにAWSの構成図... 続きを読む
GPT-4Vができることをまとめてみた - ISID テックブログ
こんにちは。ISID 金融ソリューション事業部の若本です。 先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision(GPT-4V)が発表されました。GPT-4Vは大規模マルチモーダルモデル(LMMs: Large multimodal models)と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。 今... 続きを読む
GPT-4V: 驚きを隠せない進化!凄すぎて"ズキズキワクワク"が止まりません!!! - Qiita
この記事で行なっていること 凄すぎて”ズキズキワクワク"が止まりません はじめに ついこの間、ChatGPTは2022年1月までの情報を学習した、というい発表がありましたが、さらに今回のアップデートで 画像解析機能(GPT-4V) が追加され、アップロードした画像を使った新たなタスクの実行が可能になってます。そして、それが... 続きを読む
OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB
画像出力の不明点と可能性 現時点でGPT-4Vが画像を出力できるかどうかについては、公式な情報はありません。しかし、OpenAIが開発したDALL-Eなどの画像生成AIとの連携が将来的には考えられる(発表済み)ため、この点には注目が集まっています。 RLHF(人間フィードバック強化学習)による嗜好性の学習 GPT-4Vは、人間フ... 続きを読む