タグ「マルチモーダル大規模言語モデル」

タグマルチモーダル大規模言語モデル

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 5 / 5件)

Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も

2024/04/10 15 users abs MLLM arXiv Siri 未査読論文リポジトリ

Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.0571... 続きを読む

Apple、300億パラメータのマルチモーダル大規模言語モデル「MM1」

2024/03/19 9 users Apple MM1

アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

2024/03/18 138 users アップル言語理解 MM1 発表 GPT-4V

アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮複数（30億、70億、300億）のパラメータサイズを備えるMM1は、10億以上の... 続きを読む

Appleが画像を見て質問に答えられる大規模言語モデル「Ferret」を開発、ウェイトの情報が公開される

2023/12/25 17 users Ferret github.com ウエイトタスクテキスト

画像とテキストを組み合わせてタスクをこなせるマルチモーダル大規模言語モデルの「Ferret」のウェイト情報をAppleが公開しました。ウェイトのデータはCC-BY-NCライセンスでの提供となっており、研究目的でのみ利用可能です。 apple/ml-ferret https://github.com/apple/ml-ferret Ferretは2023年10月30日に公開されたマ... 続きを読む

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明（生成AIウィークリー） | テクノエッジ TechnoEdge

2023/10/16 16 users TechnoEdge Ferret LLM マルチモーダル

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文... 続きを読む

(1 - 5 / 5件)