はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ マルチモーダルAI

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 11 / 11件)
 

イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能

2024/04/15 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip イーロン XAI GPT-4V マスク カロリー

イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。 Grok-1.5 Vision Preview https://x.ai/blog/grok-1.5v Grok-1.... 続きを読む

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

2024/03/18 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip seamless OpenAI TechnoEdge 連載

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第38回目は、生成AI最新論文の概要5つを紹介します。 Appleが最大300億パラメータを持つマルチモ... 続きを読む

Google、次世代AIモデル「Gemini 1.5」を発表 「10万行のソースコードから修正を提案するデモ」も公開

2024/03/09 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip デモ ソースコード Google 修正 次世代AIモデル

Googleは2024年2月15日(米国時間)、同社の大規模言語モデル(LLM)「Gemini」の次世代モデルである「Gemini 1.5」を発表した。 Geminiは、テキスト/画像/音声/数値など複数の種類のデータ(モダリティ)を処理できるマルチモーダルAI(人工知能)モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1... 続きを読む

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

2024/02/18 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip seamless シームレス 生成AI論文ピックアップ 解説

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第34回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 1時間以上の長時間... 続きを読む

Googleがチャットボット「Bard」をマルチモーダルAI「Gemini」に統合してアプリ化も計画していることが明らかに

2024/02/05 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip Bard GEMINI チャットボット 直近 統合

Googleが提供しているチャットボット「Bard」の変更履歴が正式更新前に流出し、BardとマルチモーダルAI「Gemini」の統合や、直近で「Gemini」アプリのリリースが予定されていることなどが明らかになりました。 Google is reportedly rebranding Bard to Gemini and plans to launch a dedicated app https://www.engadge... 続きを読む

GoogleのマルチモーダルAI「Gemini Pro Vision」は、動画についてどこまで正しく答えられるか?【イニシャルB】

2024/01/22 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip イニシャルB Google 動画

続きを読む

マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘

2023/12/08 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip GEMINI LLM フェイク 指摘 性能

Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクでは... 続きを読む

GoogleのマルチモーダルAI「Gemini」ベースのプログラミングに特化したAI「AlphaCode 2」登場、競技プログラミング上位15%に入る性能

2023/12/07 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip GEMINI プログラミング 競技プログラミング 性能 ほか

現地時間の2023年12月6日にGoogleがマルチモーダルAI「Gemini」をリリースしました。Geminiは大規模言語モデル「PaLM 2」と比べてプログラミング能力が向上しているほか、Geminiをベースに競技プログラミングに特化させたAI「AlphaCode 2」も開発されています。 Introducing Gemini: Google’s most capable AI model yet... 続きを読む

「ChatGPT」が見て、聞いて、話せるように ~音声・画像対応のマルチモーダルAI/今後2週間のうちに「Plus」および「Enterprise」で提供

2023/09/26 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt enterprise plus 音声 うち

続きを読む

Meta、マルチモーダルAI「ImageBind」をオープンソース化

2023/05/10 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip Meta マルチモーダル モダリティ IMU 深度

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度(3D)、熱(赤外線)、慣性測定単位(IMU)という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。 米Metaは5月9日(現地時間)、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む

「GPT-4」発表、司法試験上位10%&日本語でもめちゃくちゃ高性能&画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される

2023/03/15 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 初代iPhone GPT-4 OpenAI プログラミング

2023年3月14日(火)に、OpenAIが「GPT-4」を正式発表しました。GPT-4はテキストだけでなく画像の入力も受付ける「マルチモーダルAI」として開発されており、「人間用の試験問題を解く」「依頼に従ってプログラミングする」「『この画像は、何が面白いの?』といった質問に答える」といった動作を実現。さらに、日本語を含... 続きを読む

 
(1 - 11 / 11件)