はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ VLM

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 5 / 5件)
 

Apple、iOS 18.2、iPadOS 18.2、macOS Sequoia 15.2で画面上のコンテンツを理解する視覚言語モデル (VLM)を実装 | NEWS | Mac OTAKARA

2024/11/05 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip Siri Apple Intelligence アプリ 実装

Making onscreen content available to Siri and Apple Intelligence Appleが、デベロッパー向けドキュメント「Making onscreen content available to Siri and Apple Intelligence」を公開し、iOS 18.2以降、iPadOS 18.2以降、macOS Sequoia 15.2以降で、Siri と Apple Intelligence を有効にして、アプリの画面上のコ... 続きを読む

Sakana AI、複数の画像を扱える“日本語視覚言語モデル”公開 非英語圏での先駆けに

2024/08/05 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip Sakana AI 非英語圏 複数 画像 公開

AIスタートアップのSakana AI(東京都港区)は8月2日、複数の画像について日本語で質疑応答できるAIモデル「Llama-3-EvoVLM-JP-v2」を発表した。このモデルは、同社が提案する生成AIの開発手法「進化的モデルマージ」で開発した視覚言語モデル(VLM)。作成したAIモデルなどはHugging Faceで公開中。 「Llama-3-EvoVLM-J... 続きを読む

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip メンダコ LLM LLM時代 強化学習 課題

強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む

OpenAI の GPT-4-vision-preview (VLM) を利用した商品画像のタグ付け - DROBEプロダクト開発ブログ

2023/11/22 このエントリーをはてなブックマークに追加 30 users Instapaper Pocket Tweet Facebook Share Evernote Clip DROBE ケーススタディ プロンプト モチベーション 課題

はじめに DROBE の課題と GPT-4-Vision-Preview を試すモチベーション ケーススタディ 入力するデータ 推論周辺部分のコード プロンプト 実験結果 おわりに 参考文献 はじめに OpenAIが Dev Day で発表したGPT-4-Vision-Previewは、画像処理と自然言語処理を組み合わせた最先端の技術です。 このモデルは、画像を理解し... 続きを読む

Stability AIは商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 — Stability AI Japan

2023/11/13 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stability AI 商用利用 日本語画像言語モデル

Stability AI は商用利用可能な日本語画像言語モデル「Japanese Stable VLM」をリリースしました。 Japanese Stable VLM 「Japanese Stable VLM」は、「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル(Vision-Language Model、略してVLM)です。入力した画像に対して文字で説明を生成できる... 続きを読む

 
(1 - 5 / 5件)