タグ「マルチモーダルAI」

タグマルチモーダルAI

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 19 / 19件)

Mistral AIがチャットAI「Le Chat」を大幅アップデートしてウェブ検索機能や「FLUX1.1 [pro]」を利用した画像生成が可能に

2024/11/19 5 users pro Mistral Large Mistral AI

1230億パラメーターと128kコンテキストウィンドウを備えGPT-4oに匹敵するベンチマーク性能を記録した「Mistral Large 2」やマルチモーダルAI「Pixtral 12B」、小規模モデルの「Ministral 3B/8B」などを展開しているAI開発企業のMistral AIが、チャットAI「Le Chat」の大幅なアップデートを発表しました。 Mistral has en... 続きを読む

画面録画をGoogle AI StudioにアップロードしてGeminiでデータを抽出する「ビデオスクレイピング」のやり方とは？

2024/10/21 17 users GEMINI than 画面録画 Google 映像

GoogleのマルチモーダルAI「Gemini」を利用して、録画した映像から必要なデータを抽出する「ビデオスクレイピング」について、AI研究者でデータジャーナリストのサイモン・ウィルソン氏が解説しています。 Video scraping: extracting JSON data from a 35 second screen capture for less than 1/10th of a cent https:... 続きを読む

Googleが大規模言語モデル「Gemma 2」のコンパクトバージョン「Gemma 2 2B」の日本語版をリリース

2024/10/04 5 users リリース言語モデル Google Gemma 2 日本語版

Googleが開発したオープンかつ商用利用可能な大規模言語モデル「Gemma 2」のパラメーターをコンパクトにした「Gemma 2 2B」の日本語版が、2024年10月3日にリリースされました。日本語版 Gemma 2 2B を公開 https://blog.google/intl/ja-jp/company-news/technology/gemma-2-2b/ Googleは2024年2月、マルチモーダルAIのG... 続きを読む

小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも

2024/09/26 9 users OpenAI GPT-4o アレン人工知能研究所性能 AI2

2024年9月25日、アレン人工知能研究所(Ai2)が新たなマルチモーダルAI「Molmo」をオープンソースでリリースしました。MolmoはOpenAIのGPT-4oやGoogleのGemini 1.5 Proといった、大手企業が開発した最先端のAIに匹敵する性能を持ちながら、モデルのサイズは約10分の1と非常に小さくなっています。ブラウザでMolmoの性能を... 続きを読む

GoogleのマルチモーダルAI「Gemini 1.5 Flash」の使用料金が最大78％の大幅値下げ

2024/08/11 7 users GEMINI 大幅値下げ Google Flash 使用料金

Googleが2024年5月に発表したAIモデル「Gemini 1.5 Flash」は、ベンチマークテストにおいて高性能なGemini 1.5 Proに匹敵する性能を発揮できるにもかかわらず、Gemini 1.5 Proのわずか10分の1という低価格が特徴の一つです。そしてGoogleは2024年8月12日から、Gemini 1.5 Flashの大幅な値下げを実施することを発表しまし... 続きを読む

MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針を明らかに

2024/07/18 17 users Meta Llama 方針 Microsoft ビッグテック

EUはデジタル市場法やデジタルサービス法で大手デジタルプラットフォームやその運営企業を厳しく規制しており、AppleやGoogle、Meta、Microsoftなどのビッグテックはその対応に追われています。大規模言語モデルのLlamaを開発するMetaが、2024年中にリリースする予定のマルチモーダルAIをEUでは提供しないことを発表しま... 続きを読む

Apple幹部がGoogleのAI「Gemini」をApple製品に統合する意向を示す

2024/06/11 11 users GEMINI iPhone iOS iPadOS MacOS

2024年6月11日に開催されたAppleの年次開発者会議「WWDC24」の基調講演では、iPhoneやiPad、Macで使える新しいパーソナルAIの「Apple Intelligence」が発表されました。基調講演後に行われたイベントで、AppleはiOSやiPadOS、macOSにGoogleのマルチモーダルAI「Gemini」を統合したいとの考えを示しています。 Craig Fede... 続きを読む

GoogleのGeminiとMicrosoftのCopilotが過去のアメリカの大統領選挙を含めた世界中の選挙の結果を正常に返していないことが判明

2024/06/10 6 users COPILOT GEMINI クエリ Microsoft 選挙

GoogleのマルチモーダルAI「Gemini」やMicrosoftのチャットAI「Copilot」では、公正な選挙の実現に向けて「選挙関連のクエリに答えない」などの制限を設けていることが報告されています。さらに、GeminiやCopilotが、2020年に実施されたアメリカ合衆国大統領選挙を含む、世界中の選挙結果を出力しないことが判明しました... 続きを読む

イーロン・マスクのAI企業が画像を理解可能なマルチモーダルAI「Grok-1.5」を発表、「GPT-4V」や「Gemini Pro 1.5」に匹敵する性能

2024/04/15 6 users イーロン XAI GPT-4V マルチモーダルAIモデル性能

イーロン・マスク氏が設立したAI企業「xAI」が、同社初のマルチモーダルAIモデル「Grok-1.5」を発表しました。Grok-1.5は画像の理解が可能で、「フローチャートを認識してコードを書く」「栄養成分表示を見てカロリーを計算する」といった操作が可能です。 Grok-1.5 Vision Preview https://x.ai/blog/grok-1.5v Grok-1.... 続きを読む

「公開するApple vs. 隠すOpenAI」アップルが300億パラメータのマルチモーダルAI「MM1」発表。重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/03/18 24 users seamless OpenAI TechnoEdge 連載

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第38回目は、生成AI最新論文の概要5つを紹介します。 Appleが最大300億パラメータを持つマルチモ... 続きを読む

Google、次世代AIモデル「Gemini 1.5」を発表　「10万行のソースコードから修正を提案するデモ」も公開

2024/03/09 15 users デモソースコード Google 修正次世代AIモデル

Googleは2024年2月15日（米国時間）、同社の大規模言語モデル（LLM）「Gemini」の次世代モデルである「Gemini 1.5」を発表した。 Geminiは、テキスト／画像／音声／数値など複数の種類のデータ（モダリティ）を処理できるマルチモーダルAI（人工知能）モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1... 続きを読む

1時間超のYouTubeを解釈できるオープンなマルチモーダルAI「LWM」、Windowsをプロンプトで自動操作するMS製AI「UFO」など重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2024/02/18 14 users seamless シームレス生成AI論文ピックアップ解説

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第34回目は、生成AI最新論文の概要5つを紹介します。生成AI論文ピックアップ 1時間以上の長時間... 続きを読む

Googleがチャットボット「Bard」をマルチモーダルAI「Gemini」に統合してアプリ化も計画していることが明らかに

2024/02/05 9 users Bard GEMINI チャットボット直近統合

Googleが提供しているチャットボット「Bard」の変更履歴が正式更新前に流出し、BardとマルチモーダルAI「Gemini」の統合や、直近で「Gemini」アプリのリリースが予定されていることなどが明らかになりました。 Google is reportedly rebranding Bard to Gemini and plans to launch a dedicated app https://www.engadge... 続きを読む

GoogleのマルチモーダルAI「Gemini Pro Vision」は、動画についてどこまで正しく答えられるか？【イニシャルB】

2024/01/22 6 users イニシャルB Google 動画

マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘

2023/12/08 14 users GEMINI LLM フェイク指摘性能

Googleが2023年12月6日に発表した大規模言語モデル(LLM)の「Gemini」は、文字だけではなく画像や映像なども理解してユーザーとやり取りができるマルチモーダリティが大きな特徴で、Googleが公開したGeminiの性能を示すデモムービーは大きな話題となりました。しかし、このムービーで示されたGeminiのデモはフェイクでは... 続きを読む

GoogleのマルチモーダルAI「Gemini」ベースのプログラミングに特化したAI「AlphaCode 2」登場、競技プログラミング上位15％に入る性能

2023/12/07 6 users GEMINI プログラミング競技プログラミング性能ほか

現地時間の2023年12月6日にGoogleがマルチモーダルAI「Gemini」をリリースしました。Geminiは大規模言語モデル「PaLM 2」と比べてプログラミング能力が向上しているほか、Geminiをベースに競技プログラミングに特化させたAI「AlphaCode 2」も開発されています。 Introducing Gemini: Google’s most capable AI model yet... 続きを読む

「ChatGPT」が見て、聞いて、話せるように～音声・画像対応のマルチモーダルAI／今後2週間のうちに「Plus」および「Enterprise」で提供

2023/09/26 9 users chatgpt enterprise plus 音声うち

Meta、マルチモーダルAI「ImageBind」をオープンソース化

2023/05/10 21 users Meta マルチモーダルモダリティ IMU 深度

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。米Metaは5月9日（現地時間）、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む

「GPT-4」発表、司法試験上位10％＆日本語でもめちゃくちゃ高性能＆画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される

2023/03/15 13 users 初代iPhone GPT-4 OpenAI プログラミング

2023年3月14日(火)に、OpenAIが「GPT-4」を正式発表しました。GPT-4はテキストだけでなく画像の入力も受付ける「マルチモーダルAI」として開発されており、「人間用の試験問題を解く」「依頼に従ってプログラミングする」「『この画像は、何が面白いの？』といった質問に答える」といった動作を実現。さらに、日本語を含... 続きを読む

(1 - 19 / 19件)