タグ「マルチモーダルAI」

タグマルチモーダルAI

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 11 / 11件)

イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能

2024/04/15 6 users イーロン XAI GPT-4V マスクカロリー

イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。 Grok-1.5 Vision Preview https://x.ai/blog/grok-1.5v Grok-1.... 続きを読む

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/03/18 24 users seamless OpenAI TechnoEdge 連載

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第38回目は、生成AI最新論文の概要5つを紹介します。 Appleが最大300億パラメータを持つマルチモ... 続きを読む

Google、次世代AIモデル「Gemini 1.5」を発表　「10万行のソースコードから修正を提案するデモ」も公開

2024/03/09 15 users デモソースコード Google 修正次世代AIモデル

Googleは2024年2月15日（米国時間）、同社の大規模言語モデル（LLM）「Gemini」の次世代モデルである「Gemini 1.5」を発表した。 Geminiは、テキスト／画像／音声／数値など複数の種類のデータ（モダリティ）を処理できるマルチモーダルAI（人工知能）モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1... 続きを読む

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/02/18 14 users seamless シームレス生成AI論文ピックアップ解説

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第34回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップ 1時間以上の長時間... 続きを読む

Googleがチャットボット「Bard」をマルチモーダルAI「Gemini」に統合してアプリ化も計画していることが明らかに

2024/02/05 9 users Bard GEMINI チャットボット直近統合

Googleが提供しているチャットボット「Bard」の変更履歴が正式更新前に流出し、BardとマルチモーダルAI「Gemini」の統合や、直近で「Gemini」アプリのリリースが予定されていることなどが明らかになりました。 Google is reportedly rebranding Bard to Gemini and plans to launch a dedicated app https://www.engadge... 続きを読む

GoogleのマルチモーダルAI「Gemini Pro Vision」は、動画についてどこまで正しく答えられるか？【イニシャルB】

2024/01/22 6 users イニシャルB Google 動画

マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘

2023/12/08 14 users GEMINI LLM フェイク指摘性能

Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクでは... 続きを読む

GoogleのマルチモーダルAI「Gemini」ベースのプログラミングに特化したAI「AlphaCode 2」登場、競技プログラミング上位15％に入る性能

2023/12/07 6 users GEMINI プログラミング競技プログラミング性能ほか

現地時間の2023年12月6日にGoogleがマルチモーダルAI「Gemini」をリリースしました。Geminiは大規模言語モデル「PaLM 2」と比べてプログラミング能力が向上しているほか、Geminiをベースに競技プログラミングに特化させたAI「AlphaCode 2」も開発されています。 Introducing Gemini: Google’s most capable AI model yet... 続きを読む

「ChatGPT」が見て、聞いて、話せるように～音声・画像対応のマルチモーダルAI／今後2週間のうちに「Plus」および「Enterprise」で提供

2023/09/26 9 users chatgpt enterprise plus 音声うち

Meta、マルチモーダルAI「ImageBind」をオープンソース化

2023/05/10 21 users Meta マルチモーダルモダリティ IMU 深度

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。米Metaは5月9日（現地時間）、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む

「GPT-4」発表、司法試験上位10％＆日本語でもめちゃくちゃ高性能＆画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される

2023/03/15 13 users 初代iPhone GPT-4 OpenAI プログラミング

2023年3月14日(火)に、OpenAIが「GPT-4」を正式発表しました。GPT-4はテキストだけでなく画像の入力も受付ける「マルチモーダルAI」として開発されており、「人間用の試験問題を解く」「依頼に従ってプログラミングする」「『この画像は、何が面白いの？』といった質問に答える」といった動作を実現。さらに、日本語を含... 続きを読む

(1 - 11 / 11件)