タグ「マルチモーダルモデル」

タグマルチモーダルモデル

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 9 / 9件)

2024年にAI分野で何が起きていたのか振り返り、2023年に市場を席捲したGPT-4を上回るAIモデルが多数登場しコンテキストウィンドウの拡張やマルチモーダルモデルが一般化して価格も急落

2025/01/06 6 users DEC コンテキストウィンドウ急落 GPT-4 人工知能

元Eventbriteのエンジニアリングディレクターであり、オープンソースツール・Datasetteの開発者でもあるサイモン・ウィリソン氏が、2024年に人工知能(AI)分野で起きた出来事をまとめています。 Things we learned about LLMs in 2024 https://simonwillison.net/2024/Dec/31/llms-in-2024/ ◆GPT-4の壁が完全に破られる 2... 続きを読む

vLLMで独自実装モデルを高速推論させる

2024/12/04 9 users vLLM LLM Llama Qwen サービング

はじめにチューリング生成AIチームの荒居です。この記事は生成AIアドベントカレンダー2024の4日目の記事です。この記事では、動画生成モデルを題材に、vLLMを用いて独自のマルチモーダルモデルを推論させる方法について解説します。vLLMはLLMの高速推論・サービングのライブラリで、LlamaやQwenなどの有名なモデルに... 続きを読む

Meta、無料で商用可のLLM「Llama 3.2」リリース　マルチモーダルモデルも

2024/09/26 13 users LLM Meta Llama 米Meta 商用可

米Metaは9月25日（現地時間）、年次開発者会議「Meta Connect 2024」で、同社のLLM「Llama」の最新版「Llama 3.2」のリリースを発表した。7月に「Llama 3.1」をリリースしたばかりだが、初のマルチモーダルモデルの追加など、大きな更新になった。画像認識機能の追加 Llama 3.2では、11B（110億）と90B（900億）の2つの... 続きを読む

GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円

2024/05/29 21 users OpenAI 格段指標登場サイズ

画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with ... 続きを読む

イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に

2024/04/13 9 users LLM スクリ Grok 手書きフローチャート

イーロン・マスク氏の米AI企業xAIは4月12日（現地時間）、昨年11月に発表した独自LLM（大規模言語モデル）「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。 1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリ... 続きを読む

80.最近のLLMの動向、マルチモーダルモデルの仕組みとLLMの評価方法を解説 | 白金鉱業.FM

2024/02/06 5 users LLM 目次 Show Notes ハッシュタグ動向

感想などは白金鉱業.FMのハッシュタグ #白金鉱業fm につぶやいてもらえるととても喜びます！匿名でのお便りもgoogle formにてお待ちしております！ — 目次 00:31〜：最近のLLMの動向 07:36〜：マルチモーダルモデル 17:20〜：LLMの評価方法 show notes 最近のLLMの動向（最後に辻さん、金さんが参加した収録は23年8月。... 続きを読む

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説（生成AIウィークリー）（テクノエッジ） - Yahoo

2024/01/03 120 users GPT-4 生成AIウィークリーテクノエッジ Drea 原則

1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。画像から動く3Dシーンを生成する「Drea... 続きを読む

GPT-4の回答を向上させる「プロンプト26の原則」、220以上の生成タスクが実行可能なマルチモーダルモデル「Unified-IO 2」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/01/01 831 users seamless TechnoEdge シームレス礼儀原則

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大... 続きを読む

画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中

2023/03/29 12 users Flamingo コーパス DeepMind フレームワーク

DeepMindのマルチモーダルモデル「Flamingo」をオープンソースで再現したフレームワーク「OpenFlamingo」がリリースされました。これにより、ユーザーが手軽にテキストと画像を含む大規模なコーパスを利用できるようになります。 Announcing OpenFlamingo: An open-source framework for training vision-language model... 続きを読む

(1 - 9 / 9件)