はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ マルチモーダルLLM

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 3 / 3件)
 

マルチモーダルLLMで複雑な画像を攻略:AOAIでGPT-4oをFine-tuning - Insight Edge Tech Blog

2024/12/02 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM Fine-tuning 藤村 GPT-4o 実務

はじめに Insight EdgeのLLM Engineerの藤村です。 昨今、企業のDX推進に伴い、社内に蓄積された大量の画像データや文書の効率的な活用が求められています。弊社では、実務でLLMを活用する際、画像や表形式、複雑な図を含むドキュメントの理解が大きな課題となっています。この課題は多くの企業でも同様に直面していると... 続きを読む

Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も

2024/04/10 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip abs MLLM arXiv Siri Ferret-UI

Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.0571... 続きを読む

Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵

2024/03/18 このエントリーをはてなブックマークに追加 18 users Instapaper Pocket Tweet Facebook Share Evernote Clip moe MLLM パラメータ 混合 スケール

MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。 視覚タ... 続きを読む

 
(1 - 3 / 3件)