タグ「マルチモーダル」

タグマルチモーダル

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 23 / 23件)

ついに正式版になったOpenAI o1の画像理解の実力を試す

2024/12/05 7 users 実力正式版 OpenAI o1 未明サム

今日未明、サム・アルトマン自らがチームと共にOpenAI o1の能力を説明した。スペック的にはプログラミング能力が向上し、そして画像理解(マルチモーダル)に対応したというのが最大のニュースだろう。プログラミング能力についての検証はいろんな人が世界中で始めているだろうから、僕は画像理解の方を試してみようと思... 続きを読む

［速報］Amazon、自社開発の基盤モデル「Amazon Nova」発表。テキストから画像や動画の生成、マルチモーダルまで対応

2024/12/03 13 users レイテンシ AWS 登壇米ラスベガス基調講演

Amazon Web Services（AWS）が米ラスベガスで開催中のイベント「AWS re:Invent 2024」で、基調講演にAmazon CEOのアンディ・ジャシー氏が登壇。同社が開発した新しい基盤モデルである「Amazon Nova」を発表しました。 Amazon Novaは複数のモデルから構成されています。 Amazon Nova Micro 低コストかつ小さなレイテンシ... 続きを読む

マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望

2024/11/14 24 users agent LLM 登壇見解予測

最近登壇で使っていたLLM関連技術の今後について触れた50ページほどの資料を公開します。 (予測や展望は個人の見解を多分に含む点をご容赦ください。) 細かい技術説明というよりみんな気になるAgent、LLMOps周りの実際に立ち向かって死にかけた経験を赤裸々に書いた感じです。取り組む前にこの屍を… 続きを読む

OpenAIが無料で使えるAIモデル「GPT-4o mini」をリリース、マルチモーダルで画像や音声入力にも対応

2024/07/19 12 users Intelli GPT-4 OpenAI 後継スコア

OpenAIが2024年7月18日に、コスト効率に優れた小型モデルの「GPT-4o mini」を発表しました。低コストでありながら、一部のベンチマークでGPT-4を上回るスコアを示したGPT-4o miniは、GPT-3.5の後継として無料ユーザーとChatGPT Plusのユーザーに提供が開始されています。 GPT-4o mini: advancing cost-efficient intelli... 続きを読む

ネットワークパフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ

2024/07/06 191 users UDP TCP Vertex 解読ネットワーキング

Gemini 1.5 モデルをお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダルモデルです。試す ※この投稿は米国時間 2024 年 6 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud ネットワーキングチームは長年にわたり、お客様のネットワークの構築、修正... 続きを読む

【Gemini本発売記念】npaka によるマルチモーダルとローカルLLMの現在と未来

2024/06/28 12 users npaka ローカルLLM 未来

Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation 続きを読む

三菱電機がClaude 3活用で「工数4割減」、仕様書の図表解析にマルチモーダルが威力

2024/06/24 100 users インデックス生成AI ドキュメント人工知能要約文

三菱電機が組み込みソフトウエア開発への生成AI（人工知能）活用を進めている。ソフトウエア開発に関連する過去数十年分のドキュメントの要約文を生成AIにより作成。これを検索用のインデックスとして使うことで、エンジニアの作業工数を最大40%削減できると見込む。 2024年6月20日に開催されたアマゾンウェブサービス... 続きを読む

【西川和久の不定期コラム】初心者も簡単！ついにPCで104BのLLMも動かせるようになった！そして巷を騒がせるマルチモーダルも試した

2024/05/29 128 users LLM 西川和久不定期コラム初心者

Kubernetes Pod の IP アドレスが枯渇しかけている場合に役立つ実証済みの解決策を紹介 | Google Cloud 公式ブログ

2024/05/18 16 users 実証済み解決策 Google Cloud Vertex 紹介

Gemini 1.5 モデルをお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダルモデルです。試す ※この投稿は米国時間 2024 年 4 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。 Kubernetes の大きな強みの 1 つは、Pod ごとに固有のネットワークアドレスがあることで... 続きを読む

Google、テキストや画像から動画を生成するAI「Veo」発表　OpenAIの「Sora」対抗

2024/05/15 5 users OpenAI Ｖｅｏ sora プロンプト対抗

マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができる。また、テキストではなく画像を入力して動画を生成することもできるマルチモーダルだ。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成する。 Google... 続きを読む

Databricks、“オープン”な汎用LLM「DBRX」リリース　商用利用可

2024/03/28 8 users Databricks moe リリース商用利用可既存

米AI企業のDatabricksは3月27日（現地時間）、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE（M... 続きを読む

Googleの次世代AIモデル「Gemini」の実力、ほぼ全ての指標で「GPT-4」を凌駕

2023/12/06 7 users GEMINI 凌駕 GPT-4 指標米OpenAI

米Google（グーグル）は米国時間2023年12月6日、次世代AI（人工知能）モデル「Gemini」を発表した。テキストや画像、音声、動画、プログラムコードなど様々な種類の情報に対応できる「マルチモーダル」が特徴。主要な指標の多くで米OpenAI（オープンAI）の「GPT-4」を上回ったという。グーグルのスンダー・ピチャイCEO（... 続きを読む

アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明（生成AIウィークリー） | テクノエッジ TechnoEdge

2023/10/16 16 users Ferret TechnoEdge LLM テクノエッジ言葉

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文... 続きを読む

「生成AIのハイプ・サイクル」2023年版をガートナーが公開　LLMやプロンプトエンジニアリングは「過度な期待のピーク」に

2023/10/13 19 users ガートナー LLM ガートナージャパン生成AI ピーク

ガートナージャパンは10月12日、「生成AIのハイプ・サイクル」2023年版を公開した。大規模言語モデル（LLM）やプロンプトエンジニアリングといった技術は「過度な期待のピーク」にあると指摘。一方でオープンソースのLLMやマルチモーダル（画像や言語など複数の入力ソースを扱える）な生成AIなどは黎明期にあるとした。 ... 続きを読む

ChatGPT、画像と音声使った会話が可能に。Plusユーザーはモバイルアプリでマルチモーダルに | テクノエッジ TechnoEdge

2023/09/25 15 users iOS OpenAI サドル TechnoEdge 自転車

OpenAIは9月25日、ChatGPTのバージョンアップを発表しました。PlusプランとEnterpriseプランのユーザー向けに今後2週間でロールアウトを予定。 iOSとAndroidアプリではChatGPTと音声と画像を含む会話が可能になり、その他のプラットフォームでは、画像を含んだ会話ができるようになります。自転車のサドルの高さを変える... 続きを読む

生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開　最大700億パラメータの学習済みモデルも

2023/09/07 14 users 生成AI 視覚学習済みモデル Turing ソースコード

生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開　最大700億パラメータの学習済みモデルも自動運転車を開発するTuringは、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」を公開した。ソースコードは、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども... 続きを読む

Meta、マルチモーダルAI「ImageBind」をオープンソース化

2023/05/10 21 users Meta モダリティ IMU マルチモーダルAI 深度

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。米Metaは5月9日（現地時間）、マルチモーダルな情報をバインドするAIモデル「I... 続きを読む

OpenAI「GPT-4」で全く新しいアプリ　「マルチモーダル」の威力 - 日本経済新聞

2023/03/28 5 users OpenAI GPT-4 威力日本経済新聞新しいアプリ

NIKKEI Primeについて朝夕刊や電子版ではお伝えしきれない情報をお届けします。今後も様々な切り口でサービスを開始予定です。続きを読む

ChatGPTのMac用クライアント「MacGPT」がGPT-4 APIに対応。

2023/03/21 75 users chatgpt OpenAI GPT-4 API GPT-4

ChatGPTのMac用クライアント「MacGPT」がGPT-4 APIに対応しています。詳細は以下から。 OpenAIは現地時間2023年03月14日、マルチモーダルとなった次世代大規模言語モデル「GPT-4」の提供を開始しましたが、ChatGPTをMacのメニューバーやデスクトップから利用できる「MacGPT」がGPT-4 APIキーに対応しています。 Just rel... 続きを読む

最近話題になった大規模言語モデルまとめ｜npaka｜note

2023/03/16 82 users Note 話題 OpenAI プロンプト GPT-4

最近話題になった大規模言語モデルをまとめました。 1. GPT-4「GPT-4」は、OpenAIによって開発された大規模言語モデルです。マルチモーダルで、テキストと画像のプロンプトを受け入れることができるようになりました。最大トークン数が4Kから32kに増えました。推論能力も飛躍的に向上しています。現在、「ChatGPT Pro... 続きを読む

データの民主化とこれからのAI組織｜ばんくし｜note

2023/03/13 264 users バンクシ Note 民主化 LLM データ

はじめにStable DiffusionだとかChatGPT、LLMみたいな「大規模モデル」って考え方が機械学習業界から出て、スケーリング則に基づいてまだまだ精度が上がるとされている昨今。（スケーリング則はどうのこうの諸説あるが）さておき、「マルチモーダルに」「あらゆるデータを学習した」「大規模なモデル」が今後数年リード... 続きを読む

共感覚、マルチモーダル、ゾーン：水口哲也が思い描く、これからの「意識のあり方」｜WIRED.jp

2019/05/01 29 users ファインマンロリーシナスタジア水口哲也数式

PHOTOGRAPH BY KOUTAROU WASHIZAKI 人はいまだ「五感」の呪縛にとらわれているシナスタジアとは、共感覚とか共鳴感覚と訳される、ある特殊な知覚現象です。文字や音に色を感じたり、形に味を感じたりする人がもつ感覚で、例えば物理学者のリチャード・P・ファインマンは数式やコードから色を感じたそうですし、『ロリー... 続きを読む

マルチモーダルDeepLearning　エージェントマシンに <意識> を持たせるためには何が必要か～「構成論的人工知能研究」と２つの脳理論（１）量子場脳理論と（２）統合情報理論を統合する

2015/06/15 39 users アルゴリズム知性物体手触り知能

Deep Learning アルゴリズムを、身体と視覚・音声・感熱・感圧などの複数のセンサーを搭載したマルチモーダルなエージェントマシンに搭載することで、「見た目」・「発する音」・「温かさ・冷たさ」・「手触り」などの全体的な感覚イメージを、「猫」や「人間」・「りんご」などの物の物体概念に結びつけあわせる知能（知性）を、構成論的に再現する道が開けました。では、そのエージェントに、『感覚をもった物体... 続きを読む

(1 - 23 / 23件)