はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 視覚言語モデル

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 3 / 3件)
 

PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能

2025/01/28 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qwen Alibaba 被写体 GPT-4o超え 性能

Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。 Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen https://qwenlm.g... 続きを読む

Apple、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2で画面上のコンテンツを理解する視覚言語モデル (VLM)を実装 | NEWS | Mac OTAKARA

2024/11/05 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip Siri VLM Apple Intelligence 実装

Making onscreen content available to Siri and Apple Intelligence Appleが、デベロッパー向けドキュメント「Making onscreen content available to Siri and Apple Intelligence」を公開し、iOS 18.2以降、iPadOS 18.2以降、macOS Sequoia 15.2以降で、Siri と Apple Intelligence を有効にして、アプリの画面上のコ... 続きを読む

Sakana AI、複数の画像を扱える“日本語視覚言語モデル”公開 非英語圏での先駆けに

2024/08/05 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip Sakana AI 非英語圏 複数 画像 公開

AIスタートアップのSakana AI(東京都港区)は8月2日、複数の画像について日本語で質疑応答できるAIモデル「Llama-3-EvoVLM-JP-v2」を発表した。このモデルは、同社が提案する生成AIの開発手法「進化的モデルマージ」で開発した視覚言語モデル(VLM)。作成したAIモデルなどはHugging Faceで公開中。 「Llama-3-EvoVLM-J... 続きを読む

 
(1 - 3 / 3件)