タグ「マルチモーダル」

タグマルチモーダル

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 13 / 13件)

Databricks、“オープン”な汎用LLM「DBRX」リリース　商用利用可

2024/03/28 8 users Databricks moe リリース商用利用可既存

米AI企業のDatabricksは3月27日（現地時間）、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE（M... 続きを読む

Googleの次世代AIモデル「Gemini」の実力、ほぼ全ての指標で「GPT-4」を凌駕

2023/12/06 7 users GEMINI 凌駕 GPT-4 指標米OpenAI

米Google（グーグル）は米国時間2023年12月6日、次世代AI（人工知能）モデル「Gemini」を発表した。テキストや画像、音声、動画、プログラムコードなど様々な種類の情報に対応できる「マルチモーダル」が特徴。主要な指標の多くで米OpenAI（オープンAI）の「GPT-4」を上回ったという。グーグルのスンダー・ピチャイCEO（... 続きを読む

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明（生成AIウィークリー） | テクノエッジ TechnoEdge

2023/10/16 16 users Ferret TechnoEdge LLM テクノエッジ言葉

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文... 続きを読む

「生成AIのハイプ・サイクル」2023年版をガートナーが公開　LLMやプロンプトエンジニアリングは「過度な期待のピーク」に

2023/10/13 19 users ガートナー LLM ガートナージャパン生成AI ピーク

ガートナージャパンは10月12日、「生成AIのハイプ・サイクル」2023年版を公開した。大規模言語モデル（LLM）やプロンプトエンジニアリングといった技術は「過度な期待のピーク」にあると指摘。一方でオープンソースのLLMやマルチモーダル（画像や言語など複数の入力ソースを扱える）な生成AIなどは黎明期にあるとした。 ... 続きを読む

ChatGPT、画像と音声使った会話が可能に。Plusユーザーはモバイルアプリでマルチモーダルに | テクノエッジ TechnoEdge

2023/09/25 15 users iOS OpenAI サドル TechnoEdge 自転車

OpenAIは9月25日、ChatGPTのバージョンアップを発表しました。PlusプランとEnterpriseプランのユーザー向けに今後2週間でロールアウトを予定。 iOSとAndroidアプリではChatGPTと音声と画像を含む会話が可能になり、その他のプラットフォームでは、画像を含んだ会話ができるようになります。自転車のサドルの高さを変える... 続きを読む

生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開　最大700億パラメータの学習済みモデルも

2023/09/07 14 users 生成AI 視覚学習済みモデル Turing ソースコード

生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開　最大700億パラメータの学習済みモデルも自動運転車を開発するTuringは、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」を公開した。ソースコードは、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども... 続きを読む

Meta、マルチモーダルAI「ImageBind」をオープンソース化

2023/05/10 21 users Meta モダリティ IMU マルチモーダルAI 深度

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。米Metaは5月9日（現地時間）、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む

OpenAI「GPT-4」で全く新しいアプリ　「マルチモーダル」の威力 - 日本経済新聞

2023/03/28 5 users OpenAI GPT-4 威力日本経済新聞新しいアプリ

NIKKEI Primeについて朝夕刊や電子版ではお伝えしきれない情報をお届けします。今後も様々な切り口でサービスを開始予定です。続きを読む

ChatGPTのMac用クライアント「MacGPT」がGPT-4 APIに対応。

2023/03/21 75 users chatgpt OpenAI GPT-4 API GPT-4

ChatGPTのMac用クライアント「MacGPT」がGPT-4 APIに対応しています。詳細は以下から。 OpenAIは現地時間2023年03月14日、マルチモーダルとなった次世代大規模言語モデル「GPT-4」の提供を開始しましたが、ChatGPTをMacのメニューバーやデスクトップから利用できる「MacGPT」がGPT-4 APIキーに対応しています。 Just rel... 続きを読む

最近話題になった大規模言語モデルまとめ｜npaka｜note

2023/03/16 82 users Note 話題 OpenAI プロンプト GPT-4

最近話題になった大規模言語モデルをまとめました。 1. GPT-4「GPT-4」は、OpenAIによって開発された大規模言語モデルです。マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。現在、「ChatGPT Pro... 続きを読む

データの民主化とこれからのAI組織｜ばんくし｜note

2023/03/13 264 users バンクシ Note 民主化 LLM データ

はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。（スケーリング則はどうのこうの諸説あるが）さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リード... 続きを読む

共感覚、マルチモーダル、ゾーン：水口哲也が思い描く、これからの「意識のあり方」｜WIRED.jp

2019/05/01 29 users ファインマンロリーシナスタジア水口哲也数式

PHOTOGRAPH BY KOUTAROU WASHIZAKI 人はいまだ「五感」の呪縛にとらわれているシナスタジアとは、共感覚とか共鳴感覚と訳される、ある特殊な知覚現象です。文字や音に色を感じたり、形に味を感じたりする人がもつ感覚で、例えば物理学者のリチャード・P・ファインマンは数式やコードから色を感じたそうですし、『ロリー... 続きを読む

マルチモーダルDeepLearning　エージェントマシンに <意識> を持たせるためには何が必要か～「構成論的人工知能研究」と２つの脳理論（１）量子場脳理論と（２）統合情報理論を統合する

2015/06/15 39 users アルゴリズム知性物体手触り知能

Deep Learning アルゴリズムを、身体と視覚・音声・感熱・感圧などの複数のセンサーを搭載したマルチモーダルなエージェントマシンに搭載することで、「見た目」・「発する音」・「温かさ・冷たさ」・「手触り」などの全体的な感覚イメージを、「猫」や「人間」・「りんご」などの物の物体概念に結びつけあわせる知能（知性）を、構成論的に再現する道が開けました。では、そのエージェントに、『感覚をもった物体... 続きを読む

(1 - 13 / 13件)