タグ マルチモーダル大規模言語モデル
人気順 10 users 50 users 100 users 500 users 1000 usersAppleはGoogleから約40人のAI専門家を引き抜いてスイス・チューリッヒに極秘研究所「Vision Lab」を開設している
近年のAppleでは、オープンソースの言語モデル「OpenELM」やマルチモーダル大規模言語モデル「Ferret-UI」などのAI関連製品の開発が精力的に行われています。そんなAppleではGoogleから少なくとも36人ものAI専門家を引き抜き、スイス・チューリッヒにAIモデルや製品を開発する研究所を設立していることが報告されていま... 続きを読む
Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も
Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.0571... 続きを読む
Apple、300億パラメータのマルチモーダル大規模言語モデル「MM1」
アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の... 続きを読む
Appleが画像を見て質問に答えられる大規模言語モデル「Ferret」を開発、ウェイトの情報が公開される
画像とテキストを組み合わせてタスクをこなせるマルチモーダル大規模言語モデルの「Ferret」のウェイト情報をAppleが公開しました。ウェイトのデータはCC-BY-NCライセンスでの提供となっており、研究目的でのみ利用可能です。 apple/ml-ferret https://github.com/apple/ml-ferret Ferretは2023年10月30日に公開されたマ... 続きを読む
アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー) | テクノエッジ TechnoEdge
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文... 続きを読む