タグ 視覚言語モデル
人気順 10 users 50 users 100 users 500 users 1000 usersPCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能
Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。 Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen https://qwenlm.g... 続きを読む
Apple、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2で画面上のコンテンツを理解する視覚言語モデル (VLM)を実装 | NEWS | Mac OTAKARA
Making onscreen content available to Siri and Apple Intelligence Appleが、デベロッパー向けドキュメント「Making onscreen content available to Siri and Apple Intelligence」を公開し、iOS 18.2以降、iPadOS 18.2以降、macOS Sequoia 15.2以降で、Siri と Apple Intelligence を有効にして、アプリの画面上のコ... 続きを読む
Sakana AI、複数の画像を扱える“日本語視覚言語モデル”公開 非英語圏での先駆けに
AIスタートアップのSakana AI(東京都港区)は8月2日、複数の画像について日本語で質疑応答できるAIモデル「Llama-3-EvoVLM-JP-v2」を発表した。このモデルは、同社が提案する生成AIの開発手法「進化的モデルマージ」で開発した視覚言語モデル(VLM)。作成したAIモデルなどはHugging Faceで公開中。 「Llama-3-EvoVLM-J... 続きを読む