タグ マルチモーダル
人気順 10 users 50 users 100 users 500 users 1000 usersついに正式版になったOpenAI o1の画像理解の実力を試す
今日未明、サム・アルトマン自らがチームと共にOpenAI o1の能力を説明した。スペック的にはプログラミング能力が向上し、そして画像理解(マルチモーダル)に対応したというのが最大のニュースだろう。 プログラミング能力についての検証はいろんな人が世界中で始めているだろうから、僕は画像理解の方を試してみようと思... 続きを読む
[速報]Amazon、自社開発の基盤モデル「Amazon Nova」発表。テキストから画像や動画の生成、マルチモーダルまで対応
Amazon Web Services(AWS)が米ラスベガスで開催中のイベント「AWS re:Invent 2024」で、基調講演にAmazon CEOのアンディ・ジャシー氏が登壇。同社が開発した新しい基盤モデルである「Amazon Nova」を発表しました。 Amazon Novaは複数のモデルから構成されています。 Amazon Nova Micro 低コストかつ小さなレイテンシ... 続きを読む
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
最近登壇で使っていたLLM関連技術の今後について触れた50ページほどの資料を公開します。 (予測や展望は個人の見解を多分に含む点をご容赦ください。) 細かい技術説明というよりみんな気になるAgent、LLMOps周りの実際に立ち向かって死にかけた経験を赤裸々に書いた感じです。取り組む前にこの屍を… 続きを読む
OpenAIが無料で使えるAIモデル「GPT-4o mini」をリリース、マルチモーダルで画像や音声入力にも対応
OpenAIが2024年7月18日に、コスト効率に優れた小型モデルの「GPT-4o mini」を発表しました。低コストでありながら、一部のベンチマークでGPT-4を上回るスコアを示したGPT-4o miniは、GPT-3.5の後継として無料ユーザーとChatGPT Plusのユーザーに提供が開始されています。 GPT-4o mini: advancing cost-efficient intelli... 続きを読む
ネットワーク パフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ
Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 6 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud ネットワーキング チームは長年にわたり、お客様のネットワークの構築、修正... 続きを読む
【Gemini本発売記念】npaka による マルチモーダルとローカルLLMの現在と未来
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation 続きを読む
三菱電機がClaude 3活用で「工数4割減」、仕様書の図表解析にマルチモーダルが威力
三菱電機が組み込みソフトウエア開発への生成AI(人工知能)活用を進めている。ソフトウエア開発に関連する過去数十年分のドキュメントの要約文を生成AIにより作成。これを検索用のインデックスとして使うことで、エンジニアの作業工数を最大40%削減できると見込む。 2024年6月20日に開催されたアマゾン ウェブ サービス... 続きを読む
【西川和久の不定期コラム】 初心者も簡単!ついにPCで104BのLLMも動かせるようになった!そして巷を騒がせるマルチモーダルも試した
Kubernetes Pod の IP アドレスが枯渇しかけている場合に役立つ実証済みの解決策を紹介 | Google Cloud 公式ブログ
Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 4 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 Kubernetes の大きな強みの 1 つは、Pod ごとに固有のネットワーク アドレスがあることで... 続きを読む
Google、テキストや画像から動画を生成するAI「Veo」発表 OpenAIの「Sora」対抗
マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができる。 また、テキストではなく画像を入力して動画を生成することもできるマルチモーダルだ。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成する。 Google... 続きを読む
Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(M... 続きを読む
Googleの次世代AIモデル「Gemini」の実力、ほぼ全ての指標で「GPT-4」を凌駕
米Google(グーグル)は米国時間2023年12月6日、次世代AI(人工知能)モデル「Gemini」を発表した。テキストや画像、音声、動画、プログラムコードなど様々な種類の情報に対応できる「マルチモーダル」が特徴。主要な指標の多くで米OpenAI(オープンAI)の「GPT-4」を上回ったという。グーグルのスンダー・ピチャイCEO(... 続きを読む
アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー) | テクノエッジ TechnoEdge
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文... 続きを読む
「生成AIのハイプ・サイクル」2023年版をガートナーが公開 LLMやプロンプトエンジニアリングは「過度な期待のピーク」に
ガートナージャパンは10月12日、「生成AIのハイプ・サイクル」2023年版を公開した。大規模言語モデル(LLM)やプロンプトエンジニアリングといった技術は「過度な期待のピーク」にあると指摘。一方でオープンソースのLLMやマルチモーダル(画像や言語など複数の入力ソースを扱える)な生成AIなどは黎明期にあるとした。 ... 続きを読む
ChatGPT、画像と音声使った会話が可能に。Plusユーザーはモバイルアプリでマルチモーダルに | テクノエッジ TechnoEdge
OpenAIは9月25日、ChatGPTのバージョンアップを発表しました。PlusプランとEnterpriseプランのユーザー向けに今後2週間でロールアウトを予定。 iOSとAndroidアプリではChatGPTと音声と画像を含む会話が可能になり、その他のプラットフォームでは、画像を含んだ会話ができるようになります。自転車のサドルの高さを変える... 続きを読む
生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開 最大700億パラメータの学習済みモデルも
生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開 最大700億パラメータの学習済みモデルも 自動運転車を開発するTuringは、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」を公開した。ソースコードは、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども... 続きを読む
Meta、マルチモーダルAI「ImageBind」をオープンソース化
Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度(3D)、熱(赤外線)、慣性測定単位(IMU)という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。 米Metaは5月9日(現地時間)、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む
OpenAI「GPT-4」で全く新しいアプリ 「マルチモーダル」の威力 - 日本経済新聞
NIKKEI Primeについて 朝夕刊や電子版ではお伝えしきれない情報をお届けします。今後も様々な切り口でサービスを開始予定です。 続きを読む
ChatGPTのMac用クライアント「MacGPT」がGPT-4 APIに対応。
ChatGPTのMac用クライアント「MacGPT」がGPT-4 APIに対応しています。詳細は以下から。 OpenAIは現地時間2023年03月14日、マルチモーダルとなった次世代大規模言語モデル「GPT-4」の提供を開始しましたが、ChatGPTをMacのメニューバーやデスクトップから利用できる「MacGPT」がGPT-4 APIキーに対応しています。 Just rel... 続きを読む
最近話題になった大規模言語モデルまとめ|npaka|note
最近話題になった大規模言語モデルをまとめました。 1. GPT-4「GPT-4」は、OpenAIによって開発された大規模言語モデルです。 マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。 現在、「ChatGPT Pro... 続きを読む
データの民主化とこれからのAI組織|ばんくし|note
はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。 (スケーリング則はどうのこうの諸説あるが)さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リード... 続きを読む
共感覚、マルチモーダル、ゾーン:水口哲也が思い描く、これからの「意識のあり方」|WIRED.jp
PHOTOGRAPH BY KOUTAROU WASHIZAKI 人はいまだ「五感」の呪縛にとらわれているシナスタジアとは、共感覚とか共鳴感覚と訳される、ある特殊な知覚現象です。文字や音に色を感じたり、形に味を感じたりする人がもつ感覚で、例えば物理学者のリチャード・P・ファインマンは数式やコードから色を感じたそうですし、『ロリー... 続きを読む
マルチモーダルDeepLearning エージェントマシンに <意識> を持たせるためには何が必要か~ 「構成論的人工知能研究」と2つの脳理論 (1)量子場脳理論 と (2)統合情報理論 を統合する
Deep Learning アルゴリズムを、身体と視覚・音声・感熱・感圧などの複数のセンサーを搭載したマルチモーダルなエージェントマシンに搭載することで、「見た目」・「発する音」・「温かさ・冷たさ」・「手触り」などの全体的な感覚イメージを、「猫」や「人間」・「りんご」などの物の物体概念に結びつけあわせる知能(知性)を、構成論的に再現する道が開けました。 では、そのエージェントに、『感覚をもった物体... 続きを読む