タグ「MLLM」 - はてブログ

タグ MLLM

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 3 / 3件)

Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も

2024/04/10 15 users abs マルチモーダルLLM arXiv Siri 論文

Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.0571... 続きを読む

Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵

2024/03/18 18 users moe マルチモーダルLLM パラメータ混合スケール

MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts（MoE）や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。視覚タ... 続きを読む

アップルが画像生成AIツールをひっそり発表

2024/02/14 10 users アップル画像生成AIツール mayumine 原文指示

アップルが画像生成AIツールをひっそり発表2024.02.14 12:00 Thomas Germain・Gizmodo US ［原文］（ mayumine ） Apple（アップル）も画像生成AI研究中。 Appleは、テキストベースの指示で写真や画像を編集するオープンソースのツールを発表しました。カリフォルニア大学サンタバーバラ校と共同で開発したもので｢MLLM-... 続きを読む

(1 - 3 / 3件)

タグ MLLM

Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も

Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵

アップルが画像生成AIツールをひっそり発表

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ

タグ MLLM

Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も

Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵

アップルが画像生成AIツールをひっそり発表

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ

Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵