タグ ベンチマーク
人気順 10 users 50 users 100 users 500 users 1000 usersOpenAIが無料で使えるAIモデル「GPT-4o mini」をリリース、マルチモーダルで画像や音声入力にも対応
OpenAIが2024年7月18日に、コスト効率に優れた小型モデルの「GPT-4o mini」を発表しました。低コストでありながら、一部のベンチマークでGPT-4を上回るスコアを示したGPT-4o miniは、GPT-3.5の後継として無料ユーザーとChatGPT Plusのユーザーに提供が開始されています。 GPT-4o mini: advancing cost-efficient intelli... 続きを読む
ネットワーク パフォーマンスの解読: TCP と UDP のバルクフローのベンチマーク | Google Cloud 公式ブログ
Gemini 1.5 モデル をお試しください。Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。 試す ※この投稿は米国時間 2024 年 6 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 Google Cloud ネットワーキング チームは長年にわたり、お客様のネットワークの構築、修正... 続きを読む
デコンパイルに特化した大規模言語モデル「LLM4Decompile」の登場
3つの要点 ✔️ デコンパイルに特化した初のオープンソースモデル「LLM4Decompile」を開発 ✔️ モデルに新しい学習目的を導入し、デコンパイルの精度向上を実現 ✔️ 再コンパイルと再実行可能性に焦点を当てたデコンパイルのための初の標準化されたベンチマークを構築 LLM4Decompile: Decompiling Binary Code with Large Langu... 続きを読む
CPU・2D・3D・メモリ・ディスクの5項目で徹底的にベンチマークするWindows版「PassMark PerformanceTest」Ver.11レビュー
「CPU」「2Dグラフィックス」「3Fグラフィックス」「メモリ」「ディスク速度」の5項目について、それぞれ複数のベンチマークを行って詳細な数値化を行ってくれるベンチマークソフトが「PassMark PerformanceTest」です。 かつて「Performance Test 7」および「Performance Test バージョン10.0」をレビューしたことがあ... 続きを読む
Apple M4のベンチマークスコアが高かった理由はARMv9化? IPCはM3から3%向上に留まる可能性
Apple M4のベンチマークスコアが高かった理由はARMv9化? IPCはM3から3%向上に留まる可能性 Appleが発表した新型iPad Proでは同社が開発した新しいプロセッサのApple M4を搭載し、発売前に登場したGeekbench 6のベンチマークでは同社のM3を20%以上超える性能を実現し、エンタープライズ向け製品であるM2 Max搭載のMac St... 続きを読む
Databricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(M... 続きを読む
Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵
MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。 視覚タ... 続きを読む
「Speedometer 3.0」が発表 ~Webブラウザーの性能を測定するベンチマークの最新版/「WebKit」「Blink」「Gecko」の開発者が共同開発、近年のWebアプリのトレンドを反映
GPT-4を超えた? Claude 3が登場! Bedrockにも来ました。 - Qiita
ちなみにOpusはクラシック音楽の「楽曲番号」、Sonnetは「定型詩」、俳句は言わずもがなということで、Claudeという名前よろしくなんだかオシャレでハイソな感じの命名ですね。 複数のベンチマークでGPT-4を上回る賢さ (出典:Anthropic公式サイトより) レスポンスが速い Opus:Claude 2.1と同等速度を維持 Sonnet:Cl... 続きを読む
M3 Proに勝利。いまだに最強クラスのM1 Mac mini|Piyomaru
自作の、地道で普通の内容のベンチマークを走らせてみたら、M1 Mac miniがMacBook Pro(M3 Pro、RAM 36GB)に勝ってしまった。どうしよう。 「頭がおかしい」と言う人がいるかもしれないので説明まず、Apple Siliconの第1世代である「M1」とは何か? それは、コンピュータの拡張性とか可能性を全部投げ捨てて、「コンピ... 続きを読む
Intelが特定ベンチマークのスコアを最大9%水増しする不正をしていたとして2600件以上のベンチマーク結果が事実上無効に
性能テストの標準化団体の1つで、公平なベンチマークを行うために設立された非営利組織・SPECが、「Intelが自社プロセッサのベンチマーク結果を水増しするために特定のベンチマークのスコアを向上させるような最適化を行い、スコアを最大で9%水増ししていた」として、Intelプロセッサのベンチマーク結果2600件以上を事... 続きを読む
MSCI、中国企業66社を指数から除外-最新の四半期見直しで
MSCIは、市場の混乱に伴い中国株式市場の時価総額が大幅に減少していることを受け、世界的なベンチマークの組入銘柄から数十社の中国企業を除外する。 最新の四半期見直しではMSCI中国指数から66社が除外された。これは少なくとも2年ぶりの多さとなる。変更は2月29日の取引終了時点で実施、MSCI・ACWI... 続きを読む
Abacus AIがリリースしたオープンソースLLM「Smaug-72B」がHugging FaceのOpen LLM LeaderboardでトップとなりいくつかのベンチマークでGPT-3.5を上回ったことが明らかに
アリババのオープンソース言語モデル「Qwen-72B」を微調整して作られた「Smaug-72B」が2024年2月6日に登場し、同時にSmaug-72Bが「世界最高のオープンソース言語モデル」の座を獲得したことが明らかになりました。 abacusai/Smaug-72B-v0.1 · Hugging Face https://huggingface.co/abacusai/Smaug-72B-v0.1 Smaug-72B - ... 続きを読む
Gemini Pro のリリースの概要|npaka
以下の記事が面白かったので、かるくまとめました。 ・It’s time for developers and enterprises to build with Gemini Pro 1. Gemini Pro のリリースの概要「Gemini Pro」の最初のバージョンが、「Gemini API」を介してアクセスできるようになりました。 ・「Gemini Pro」は、ベンチマークで他の同様のサイズのモデル... 続きを読む
GPT-4を超えた。 Geminiの使い方とその性能を解説|ChatGPT研究所
2023年12月7日、Google は GPT-4の最大の対抗馬とされていた「Gemini(ジェミニ)1.0」を発表しました。Geminiは3つのバージョンがあり、Nano, Pro, Ultra(一番性能が高い) となっています。GeminiはMMLU(大規模多目的言語理解)というベンチマークで人間の専門家を初めて上回る90.0%のスコアを達成する最強のモデルとな... 続きを読む
Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
マイページに保存最終更新日:2023/12/07 Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、... 続きを読む
3つのゲーマー向けLinuxがベンチマークでWindows 11を上回るスコアをたたき出す
PCゲームの多くがLinuxを念頭に開発され、2023年8月にはゲーミングPCのOSのシェア率でLinuxがmacOSを上回るなど、Linuxはゲーマーコミュニティの間で人気のOSとなっています。ドイツのIT系ニュースサイト・ComputerBaseの調べにより、3つのLinuxディストリビューションがベンチマークでWindows 11をしのぐパフォーマンス... 続きを読む
TypeScriptパーサーのベンチマーク:Rustツールの性能の謎を解く
TL;DR: JavaScriptで使われるネイティブパーサーは、言語間の余分な作業のために常に速いとは限りません。これらのオーバーヘッドを回避し、マルチコアを使うことが性能にとって重要です。 Rustは、そのパフォーマンスと安全性の特徴から、JavaScriptエコシステムの中で急速に選択肢の一つになっています。しかし、Rust... 続きを読む
xAI、“全人類に利益をもたらすAIツール”を目指す「Grok」正式発表
イーロン・マスク氏が7月に立ち上げたAI企業xAIは、同社初のAIモデル「Grok」を発表した。まだ初期β段階だが、ベンチマークでは「ChatGPT-3.5」や「Inflection-1」を上回るとしている。 イーロン・マスク氏率いる米AI企業xAIは11月4日(現地時間)、同社初のAIモデル「Grok」を発表した。マスク氏はそれに先立ち、Grokを... 続きを読む
【笠原一輝のユビキタス情報局】 ライバル完封のSnapdragon X Elite、ベンチマークでその実力が明らかに
Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka
「Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で70Bを動作確認しています。 1. Xwin-LM-70B-V0.1-GPTQ「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。 今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用し... 続きを読む
Google Colab で Japanese StableLM Alpha を試す|npaka
「Google Colab」で「Japanese StableLM Alpha」を試したので、まとめました。 【注意】Google Colab Pro/Pro+ のA100で動作確認しています。 1. Japanese StableLM Alpha「Japanese StableLM Alpha」は、「Stability AI Japan」は70億パラメータの日本語LLMです。ベンチマーク「lm-evaluation-harness」による複数の日... 続きを読む
Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明
近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結... 続きを読む
「ストリートファイター6 ベンチマーク」公開
k0kubun/ruby-jit-challenge 完了報告 - Smoky God Express
16.85倍はやい僕のJIT RubyKaigi 2023 お疲れ様でした。非常に面白かったですね。k0kubun さんのRJITについての発表が面白かったので ruby-jit-challange をやりました。無事完走できたので感想記事を書こうと思います(激ウマギャグ) ※: ベンチマークから rjit が抜かれてる理由は後述 RJIT / ruby-jit-challenge って... 続きを読む