タグ VLM
人気順 10 users 50 users 100 users 500 users 1000 usersApple、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2で画面上のコンテンツを理解する視覚言語モデル (VLM)を実装 | NEWS | Mac OTAKARA
Making onscreen content available to Siri and Apple Intelligence Appleが、デベロッパー向けドキュメント「Making onscreen content available to Siri and Apple Intelligence」を公開し、iOS 18.2以降、iPadOS 18.2以降、macOS Sequoia 15.2以降で、Siri と Apple Intelligence を有効にして、アプリの画面上のコ... 続きを読む
Sakana AI、複数の画像を扱える“日本語視覚言語モデル”公開 非英語圏での先駆けに
AIスタートアップのSakana AI(東京都港区)は8月2日、複数の画像について日本語で質疑応答できるAIモデル「Llama-3-EvoVLM-JP-v2」を発表した。このモデルは、同社が提案する生成AIの開発手法「進化的モデルマージ」で開発した視覚言語モデル(VLM)。作成したAIモデルなどはHugging Faceで公開中。 「Llama-3-EvoVLM-J... 続きを読む
【MiniCPM-Llama3-V 2.5】たった8BでGPT-4o超えのVLM | WEEL
WEELメディア事業部LLMライターのゆうやです。 MiniCPM-Llama3-V 2.5は、中国のOpenBMB(Open Lab for Big Model Base)が開発した最新のオープンソースマルチモーダル言語モデルで、8BというサイズながらGPT-4Vと同等の性能を有しています。 🚀 Excited to introduce MiniCPM-Llama3-V 2.5! With 8B parameters, it’s o... 続きを読む
LLM時代の強化学習 - どこから見てもメンダコ
強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む
OpenAI の GPT-4-vision-preview (VLM) を利用した商品画像のタグ付け - DROBEプロダクト開発ブログ
はじめに DROBE の課題と GPT-4-Vision-Preview を試すモチベーション ケーススタディ 入力するデータ 推論周辺部分のコード プロンプト 実験結果 おわりに 参考文献 はじめに OpenAIが Dev Day で発表したGPT-4-Vision-Previewは、画像処理と自然言語処理を組み合わせた最先端の技術です。 このモデルは、画像を理解し... 続きを読む
Stability AIは商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 — Stability AI Japan
Stability AI は商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 Japanese Stable VLM 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル(Vision-Language Model、略してVLM)です。入力した画像に対して文字で説明を生成できる... 続きを読む