はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Chatbot Arena

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 5 / 5件)
 

謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に

2024/04/30 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-2 GPT-5 出力 https gpt-4.5

ユーザーがログインせずに様々な言語モデルとチャットしてその出力を評価することができるウェブサイト「LMSYS.org」のChatbot Arenaで、「GPT-4.5」あるいは「GPT-5」と思われるモデルがテストされているのではないかと話題になっています。 GPT-2? https://rentry.co/GPT2 GPT-4.5 or GPT-5 being tested on LMSYS? | ... 続きを読む

「Claude 3 Opus」が「GPT-4」を抜き1位に--Chatbot Arenaランキングで(ZDNET Japan) - Yahoo!ニュース

2024/03/29 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4 ZDNet Japan Yahoo LLM デス

人工知能(AI)スタートアップのAnthropicが提供する大規模言語モデル(LLM)「Claude 3 Opus」が米国時間3月26日、AIチャットボットの能力を比較できる「Chatbot Arena」のランキングで、OpenAIの「GPT-4」を抜いて、首位に輝いた。 【画像】Chatbot Arenaの順位表 Chatbot Arenaは、さまざまなAIモデルの有効性をテス... 続きを読む

Anthropic「Claude 3 Opus」がLLM評価指標「Chatbot Arena」で初めてOpenAI「GPT-4」のパフォーマンスを上回る快挙を達成

2024/03/28 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI Anthropic LLM 快挙 GPT-4

2024年3月に発表されたAnthropicの大規模言語モデル(LLM)「Claude 3」は、20万トークンまでのコンテキスト長に対応しているほか、わずか2つのプロンプトから量子アルゴリズムを設計可能との報告も挙がっています。今回、AI研究者が大規模言語モデルの相対的な能力を測定するために使用する「Chatbot Arena」において、Cl... 続きを読む

GPT-4など生成AIが匿名で対戦、人間が結果をジャッジする「Chatbot Arena」が面白い【イニシャルB】

2023/06/26 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip レーティング 判定 イニシャルB 対話型生成AI 人間

続きを読む

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン

2023/05/26 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt LLM GPT-4ベース Palm ランクイン

カリフォルニア大学バークレー校の学生と教員がカリフォルニア大学サンディエゴ校とカーネギーメロン大学と協力して設立したオープンな研究組織「Large Model Systems Org(LMSYS Org)」が、ChatGPTやPaLM、VicunaなどのチャットAIや大規模言語モデル(LLM)のベンチマーク「Chatbot Arena」を公開しています。 Chatbot Are... 続きを読む

 
(1 - 5 / 5件)