タグ「マルチモーダルAI」

タグマルチモーダルAI

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 10 / 10件)

生成AIの必修用語10選～もはや現代人の新常識に

2025/01/23 23 users 生成AI 新常識現代人 LLM ASI

社会人から学生まで、今や現代人の大半は生成AIと無縁ではいられないでしょう。もはや“常識”となりつつある用語として「AI」「生成AI」「AGI」「ASI」「AIアライメント」「LLM」「ローカルLLM」「マルチモーダルAI」「エッジAI」「AIエージェント」の10語を紹介します。連載目次最近は生成AIが、さらに私たちの身近な... 続きを読む

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは？

2024/10/21 17 users GEMINI than 画面録画 Google 映像

GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。 Video scraping: extracting JSON data from a 35 second screen capture for less than 1/10th of a cent https:... 続きを読む

MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針を明らかに

2024/07/18 17 users Meta Llama 方針 Microsoft ビッグテック

EUはデジタル市場法やデジタルサービス法で大手デジタルプラットフォームやその運営企業を厳しく規制しており、AppleやGoogle、Meta、Microsoftなどのビッグテックはその対応に追われています。大規模言語モデルのLlamaを開発するMetaが、2024年中にリリースする予定のマルチモーダルAIをEUでは提供しないことを発表しま... 続きを読む

Apple幹部がGoogleのAI「Gemini」をApple製品に統合する意向を示す

2024/06/11 11 users GEMINI iPhone iOS iPadOS MacOS

2024年6月11日に開催されたAppleの年次開発者会議「WWDC24」の基調講演では、iPhoneやiPad、Macで使える新しいパーソナルAIの「Apple Intelligence」が発表されました。基調講演後に行われたイベントで、AppleはiOSやiPadOS、macOSにGoogleのマルチモーダルAI「Gemini」を統合したいとの考えを示しています。 Craig Fede... 続きを読む

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/03/18 24 users seamless OpenAI TechnoEdge 連載

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第38回目は、生成AI最新論文の概要5つを紹介します。 Appleが最大300億パラメータを持つマルチモ... 続きを読む

Google、次世代AIモデル「Gemini 1.5」を発表　「10万行のソースコードから修正を提案するデモ」も公開

2024/03/09 15 users デモソースコード Google 修正次世代AIモデル

Googleは2024年2月15日（米国時間）、同社の大規模言語モデル（LLM）「Gemini」の次世代モデルである「Gemini 1.5」を発表した。 Geminiは、テキスト／画像／音声／数値など複数の種類のデータ（モダリティ）を処理できるマルチモーダルAI（人工知能）モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1... 続きを読む

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/02/18 14 users seamless シームレス生成AI論文ピックアップ解説

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第34回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップ 1時間以上の長時間... 続きを読む

マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘

2023/12/08 14 users GEMINI LLM フェイク指摘性能

Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクでは... 続きを読む

Meta、マルチモーダルAI「ImageBind」をオープンソース化

2023/05/10 21 users Meta マルチモーダルモダリティ IMU 深度

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。米Metaは5月9日（現地時間）、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む

「GPT-4」発表、司法試験上位10％＆日本語でもめちゃくちゃ高性能＆画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される

2023/03/15 13 users 初代iPhone GPT-4 OpenAI プログラミング

2023年3月14日(火)に、OpenAIが「GPT-4」を正式発表しました。GPT-4はテキストだけでなく画像の入力も受付ける「マルチモーダルAI」として開発されており、「人間用の試験問題を解く」「依頼に従ってプログラミングする」「『この画像は、何が面白いの？』といった質問に答える」といった動作を実現。さらに、日本語を含... 続きを読む

(1 - 10 / 10件)