タグ ベンチマーク
人気順 10 users 50 users 100 users 500 users 1000 usersDatabricks、“オープン”な汎用LLM「DBRX」リリース 商用利用可
米AI企業のDatabricksは3月27日(現地時間)、“オープンな”汎用LLM「DBRX」を発表した。同社によると、DBRXは標準的なベンチマークで既存のすべてのオープンモデルより優れたパフォーマンスを発揮するという。ただし、マルチモーダルではない。 DBRXは、オープンソースプロジェクトMegaBlocksに基づいて構築されたMoE(M... 続きを読む
Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵
MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。 視覚タ... 続きを読む
「Speedometer 3.0」が発表 ~Webブラウザーの性能を測定するベンチマークの最新版/「WebKit」「Blink」「Gecko」の開発者が共同開発、近年のWebアプリのトレンドを反映
GPT-4を超えた? Claude 3が登場! Bedrockにも来ました。 - Qiita
ちなみにOpusはクラシック音楽の「楽曲番号」、Sonnetは「定型詩」、俳句は言わずもがなということで、Claudeという名前よろしくなんだかオシャレでハイソな感じの命名ですね。 複数のベンチマークでGPT-4を上回る賢さ (出典:Anthropic公式サイトより) レスポンスが速い Opus:Claude 2.1と同等速度を維持 Sonnet:Cl... 続きを読む
M3 Proに勝利。いまだに最強クラスのM1 Mac mini|Piyomaru
自作の、地道で普通の内容のベンチマークを走らせてみたら、M1 Mac miniがMacBook Pro(M3 Pro、RAM 36GB)に勝ってしまった。どうしよう。 「頭がおかしい」と言う人がいるかもしれないので説明まず、Apple Siliconの第1世代である「M1」とは何か? それは、コンピュータの拡張性とか可能性を全部投げ捨てて、「コンピ... 続きを読む
Intelが特定ベンチマークのスコアを最大9%水増しする不正をしていたとして2600件以上のベンチマーク結果が事実上無効に
性能テストの標準化団体の1つで、公平なベンチマークを行うために設立された非営利組織・SPECが、「Intelが自社プロセッサのベンチマーク結果を水増しするために特定のベンチマークのスコアを向上させるような最適化を行い、スコアを最大で9%水増ししていた」として、Intelプロセッサのベンチマーク結果2600件以上を事... 続きを読む
MSCI、中国企業66社を指数から除外-最新の四半期見直しで
MSCIは、市場の混乱に伴い中国株式市場の時価総額が大幅に減少していることを受け、世界的なベンチマークの組入銘柄から数十社の中国企業を除外する。 最新の四半期見直しではMSCI中国指数から66社が除外された。これは少なくとも2年ぶりの多さとなる。変更は2月29日の取引終了時点で実施、MSCI・ACWI... 続きを読む
Abacus AIがリリースしたオープンソースLLM「Smaug-72B」がHugging FaceのOpen LLM LeaderboardでトップとなりいくつかのベンチマークでGPT-3.5を上回ったことが明らかに
アリババのオープンソース言語モデル「Qwen-72B」を微調整して作られた「Smaug-72B」が2024年2月6日に登場し、同時にSmaug-72Bが「世界最高のオープンソース言語モデル」の座を獲得したことが明らかになりました。 abacusai/Smaug-72B-v0.1 · Hugging Face https://huggingface.co/abacusai/Smaug-72B-v0.1 Smaug-72B - ... 続きを読む
Gemini Pro のリリースの概要|npaka
以下の記事が面白かったので、かるくまとめました。 ・It’s time for developers and enterprises to build with Gemini Pro 1. Gemini Pro のリリースの概要「Gemini Pro」の最初のバージョンが、「Gemini API」を介してアクセスできるようになりました。 ・「Gemini Pro」は、ベンチマークで他の同様のサイズのモデル... 続きを読む
GPT-4を超えた。 Geminiの使い方とその性能を解説|ChatGPT研究所
2023年12月7日、Google は GPT-4の最大の対抗馬とされていた「Gemini(ジェミニ)1.0」を発表しました。Geminiは3つのバージョンがあり、Nano, Pro, Ultra(一番性能が高い) となっています。GeminiはMMLU(大規模多目的言語理解)というベンチマークで人間の専門家を初めて上回る90.0%のスコアを達成する最強のモデルとな... 続きを読む
Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 | AIDB
マイページに保存最終更新日:2023/12/07 Googleは、人間の専門家のパフォーマンスを上回る最初の大規模言語モデル(LLM)として「Gemini」を発表しました。LLMの主要なベンチマークの一つであるMMLU(多領域の学術ベンチマーク)をはじめとするほとんどのベンチマークでGPT-4を凌駕しています。 Geminiは、画像、音声、... 続きを読む
3つのゲーマー向けLinuxがベンチマークでWindows 11を上回るスコアをたたき出す
PCゲームの多くがLinuxを念頭に開発され、2023年8月にはゲーミングPCのOSのシェア率でLinuxがmacOSを上回るなど、Linuxはゲーマーコミュニティの間で人気のOSとなっています。ドイツのIT系ニュースサイト・ComputerBaseの調べにより、3つのLinuxディストリビューションがベンチマークでWindows 11をしのぐパフォーマンス... 続きを読む
TypeScriptパーサーのベンチマーク:Rustツールの性能の謎を解く
TL;DR: JavaScriptで使われるネイティブパーサーは、言語間の余分な作業のために常に速いとは限りません。これらのオーバーヘッドを回避し、マルチコアを使うことが性能にとって重要です。 Rustは、そのパフォーマンスと安全性の特徴から、JavaScriptエコシステムの中で急速に選択肢の一つになっています。しかし、Rust... 続きを読む
xAI、“全人類に利益をもたらすAIツール”を目指す「Grok」正式発表
イーロン・マスク氏が7月に立ち上げたAI企業xAIは、同社初のAIモデル「Grok」を発表した。まだ初期β段階だが、ベンチマークでは「ChatGPT-3.5」や「Inflection-1」を上回るとしている。 イーロン・マスク氏率いる米AI企業xAIは11月4日(現地時間)、同社初のAIモデル「Grok」を発表した。マスク氏はそれに先立ち、Grokを... 続きを読む
【笠原一輝のユビキタス情報局】 ライバル完封のSnapdragon X Elite、ベンチマークでその実力が明らかに
Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。|npaka
「Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で70Bを動作確認しています。 1. Xwin-LM-70B-V0.1-GPTQ「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。 今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用し... 続きを読む
Google Colab で Japanese StableLM Alpha を試す|npaka
「Google Colab」で「Japanese StableLM Alpha」を試したので、まとめました。 【注意】Google Colab Pro/Pro+ のA100で動作確認しています。 1. Japanese StableLM Alpha「Japanese StableLM Alpha」は、「Stability AI Japan」は70億パラメータの日本語LLMです。ベンチマーク「lm-evaluation-harness」による複数の日... 続きを読む
Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明
近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結... 続きを読む
「ストリートファイター6 ベンチマーク」公開
k0kubun/ruby-jit-challenge 完了報告 - Smoky God Express
16.85倍はやい僕のJIT RubyKaigi 2023 お疲れ様でした。非常に面白かったですね。k0kubun さんのRJITについての発表が面白かったので ruby-jit-challange をやりました。無事完走できたので感想記事を書こうと思います(激ウマギャグ) ※: ベンチマークから rjit が抜かれてる理由は後述 RJIT / ruby-jit-challenge って... 続きを読む
スマホメーカーが発表会で「原神」を使う理由。性能アピールの背景にある「信用できない」"ベンチマークスコア" - はやぽんログ!
話題のオープンRPGの原神。筆者もデジタルカメラで動かしたりと楽しませてもらっているが、近年ではスマートフォンの発表会でも多く使われるようになった。 その理由はなぜなのか、簡単に考察してみる ブーストをはじめとした「不正行為」の横行で信用できなくなった"ベンチマークスコア" ベンチマークに代わり「原神」... 続きを読む
GPT-3.5世代のオープンな言語モデルを調べてみた - Qiita
GPT-3.5世代のオープンな言語モデルを調べてみました。 本稿では以下の特徴をもって「GPT-3.5世代」の言語モデルと定義しました。 ChatGPT等(text-davinci-003、gpt-3.5-turbo)の登場した2022年11月以降に登場 GPT-3と同様にテキスト生成ができる言語モデル GPT-3(text-davinci-003等)を主なベンチマークにしたり、... 続きを読む
【Hothotレビュー】 傑出したゲーム性能と電力性能比が光る「Ryzen 9 7950X3D」をベンチマーク
AMD Ryzen 9 7950X3Dのシングルコア性能はCore i9-13900K超えの模様
AMD Ryzen 9 7950X3Dのシングルコア性能はCore i9-13900K超えの模様2023年2月25日2023年2月25日Zen4 AMDでは2022年2月28日に3D V-Cacheを搭載するRyzen 7000X3Dシリーズの発売を計画していますが、このX3Dはあまりベンチマークには影響を与えないと考えられていました。しかし、新たに出現したGeekbenchの結果によると、... 続きを読む
CPU シュミレータを用いて継続的ベンチマークを安定化させる - mizdra's blog
id:mizdra は eslint-interactive というツールをメンテナンスしています。このツールを使うと、多数の ESLint エラーを効率的に修正できます (詳しくは以前書いた記事を見てください)。 www.mizdra.net eslint-interactive では「中規模〜大規模なコードベースであってもキビキビ動く」を大事にしてます。その一環とし... 続きを読む