タグ マルチモーダルモデル
人気順 10 users 50 users 100 users 500 users 1000 usersMeta、無料で商用可のLLM「Llama 3.2」リリース マルチモーダルモデルも
米Metaは9月25日(現地時間)、年次開発者会議「Meta Connect 2024」で、同社のLLM「Llama」の最新版「Llama 3.2」のリリースを発表した。7月に「Llama 3.1」をリリースしたばかりだが、初のマルチモーダルモデルの追加など、大きな更新になった。 画像認識機能の追加 Llama 3.2では、11B(110億)と90B(900億)の2つの... 続きを読む
GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with ... 続きを読む
イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に
イーロン・マスク氏の米AI企業xAIは4月12日(現地時間)、昨年11月に発表した独自LLM(大規模言語モデル)「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。 1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリ... 続きを読む
80.最近のLLMの動向、マルチモーダルモデルの仕組みとLLMの評価方法を解説 | 白金鉱業.FM
感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm につぶやいてもらえるととても喜びます! 匿名でのお便りもgoogle formにてお待ちしております! — 目次 00:31〜:最近のLLMの動向 07:36〜:マルチモーダルモデル 17:20〜:LLMの評価方法 show notes 最近のLLMの動向(最後に辻さん、金さんが参加した収録は23年8月。... 続きを読む
GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー)(テクノエッジ) - Yahoo
1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。 画像から動く3Dシーンを生成する「Drea... 続きを読む
GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大... 続きを読む
画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中
DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。 Announcing OpenFlamingo: An open-source framework for training vision-language model... 続きを読む