タグ「GPT-4o」 - はてブログ

タグ GPT-4o

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 100件)

「AIは人間にごまをする」という研究結果、特にGemini 1.5 Proではその傾向が顕著

2025/02/18 17 users コマ傾向人間研究結果 abs

GPT-4oやClaude 3.5 Sonnet、Gemini 1.5 Proといった主要な大規模言語モデルを対象としたテストの結果、AIはユーザーの意見に合わせる傾向があることをスタンフォード大学の研究チームが発表しました。 [2502.08177] SycEval: Evaluating LLM Sycophancy https://arxiv.org/abs/2502.08177 SycEval: Evaluating LLM Syco... 続きを読む

OpenAI の Reasoningモデルのベストプラクティス｜npaka

2025/02/14 7 users OpenAI npaka ベストプラクティス GPTモデル

以下の記事が面白かったので、簡単にまとめました。・Reasoning best practices - OpenAI API 1. ReasoningモデルのベストプラクティスOpenAIは、「Reasoningモデル」(o1 や o3-mini など) と「GPTモデル」(GPT-4o など)の2種類のモデルを提供しています。これらのモデルは動作が異なります。この記事の内容は次のと... 続きを読む

GitHub Copilot の Agent Mode を試す｜ぬこぬこ

2025/02/08 47 users GitHub Copilot ぬこぬこ o3-mini

tl;drGitHub Copilot で Agent Mode が使えるようになったよ現状プレビュー版のため、VSCode Insiders 経由で使う必要があるよモデルは Claude 3.5 Sonnet / Gemini 2.0 Flash / GPT-4o の三つから選べるよ Agent Mode では使えないけど Edit Mode では o1 / o3-mini も使えるよ GitHub Copilot の Agent Mode につい... 続きを読む

何かと話題のDeepSeekをMacのローカル環境で実行してみた！ - Qiita

2025/02/01 173 users Qiita DeepSeek 推論蒸留圧縮

これらのモデルは、元のモデルに比べるとかなり小型化されています。蒸留（ディスティレーション）を通じてモデルを“圧縮”することで、推論の速度を向上させ、一般的なPCやiPhone等のスマートフォンでも動作可能なレベルに調整されています。驚異のパフォーマンス：小型でも特定タスクでGPT-4oを超える？ DeepSeekのテ... 続きを読む

GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース

2025/01/30 9 users Alibaba QwenLM Qwen AIモデルスコア

Alibaba CloudのAI研究チームであるQwenが、AIモデル「Qwen2.5-Max」を2025年1月28日にリリースしました。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3を上回るスコアを記録しています。 Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen https://qwenlm.github.io/blog/qwen2.5-max/ Qwen... 続きを読む

Computer-Using Agent の概要｜npaka

2025/01/23 8 users npaka Computer-Using Agent 概要

以下の記事が面白かったので、簡単にまとめました。・Computer-Using Agent 1. Computer-Using Agent「Computer-Using Agent」(CUA) は、「GPT-4o」の視覚機能と強化学習による高度な推論機能を組み合わせたモデルです。人間と同じように、画面に表示されるボタン、メニュー、テキストフィールドなどのグラフィカルユ... 続きを読む

「GPT-4o」を軽く超越か　世界が注目する最新AI言語モデルは何がスゴい？：812th Lap

2025/01/17 6 users 超越世界

生成AIの性能を左右するのがLLM（大規模言語モデル）だ。現在、多数のLLMが存在するが、OpenAIのLLMを脅かすほどの性能を持つ新たなLLMが生まれたという。生成AIの普及が進む現在、多数のLLM（Large Language Model：大規模言語モデル）が存在する。急速に技術革新が進む分野だからこそAI企業は高水準のLLMの開発を急ぎ... 続きを読む

ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89％の確率で突破可能

2024/12/23 11 users 突破確率攻撃手法ランダム回答

大文字と小文字をごちゃ混ぜにしたり、わざとスペルミスをしたりすることでAIから有害な回答を引き出す手法「Best-of-N(BoN)ジェイルブレイキング」が開発されました。 BEST-OF-N JAILBREAKING (PDFファイル)https://arxiv.org/pdf/2412.03556 Best-of-N Jailbreaking https://jplhughes.github.io/bon-jailbreaking/ Ne... 続きを読む

AIはシャットダウンされると思うと「故意に人間を騙す」確率が激増する - ナゾロジー

2024/12/18 127 users ナゾロジー故意 OpenAI社 Meta社確率

「AIはときに嘘をつく」――そんな話は耳にしたことがあるかもしれません。しかし、最新の研究では、ただの誤回答ではなく、AIが“意図的に”人間を欺くケースが報告されました。調査対象となったAIモデルは「OpenAI社のgpt-4oとo1、Google社のgemini-1.5、Meta社のllama-3.1、Anthropic社のsonnet-3.5、opus-3」と有名ど... 続きを読む

Microsoftが軽量なのにGPT-4oを圧倒的に上回る数学性能を発揮するAIモデル「Phi-4」をリリース

2024/12/13 5 users Microsoft Reasoning 数学性能リリース

Microsoftが言語モデル「Phi-4」を2024年12月13日にリリースしました。Phi-4のパラメーター数は140億で主要な大規模言語モデルと比べると小規模ですが、数学性能では最上位クラスの性能を発揮します。 Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Commu... 続きを読む

GPT-4oとo1とo1 proの翻訳の違いと物語生成性能を試す｜shi3z

2024/12/06 43 users shi3z 翻訳 operator attention The

GPT-4oとo1($30/月)とo1 pro($200/月)で翻訳を比較しました。翻訳の元にしたのは以下のツイートです。 The (true) story of development and inspiration behind the "attention" operator, the one in "Attention is All you Need" that introduced the Transformer. From personal email correspondence with the aut... 続きを読む

「マインクラフト」で最大1000人のAIエージェントが共同生活する社会実験で宗教や文化的ミームが広まったと判明

2024/12/02 9 users ミーム OpenAI マインクラフト宗教 AIエージェント

元マサチューセッツ工科大学助教授だったロバート・ヤン氏が設立したAI企業・Altera.ALは、OpenAIのGPT-4oをベースにしてゲームをプレイできる自律型エージェントを開発しています。この自律型エージェントを「マインクラフト」で共同生活させる実験「Project Sid」で、コミュニティが形成されて宗教や文化的ミームの伝... 続きを読む

マルチモーダルLLMで複雑な画像を攻略：AOAIでGPT-4oをFine-tuning - Insight Edge Tech Blog

2024/12/02 13 users マルチモーダルLLM LLM Fine-tuning 藤村

はじめに Insight EdgeのLLM Engineerの藤村です。昨今、企業のDX推進に伴い、社内に蓄積された大量の画像データや文書の効率的な活用が求められています。弊社では、実務でLLMを活用する際、画像や表形式、複雑な図を含むドキュメントの理解が大きな課題となっています。この課題は多くの企業でも同様に直面していると... 続きを読む

科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT-4oを上回る、科学研究の大幅な効率化に期待

2024/11/22 20 users chatgpt 論文科学文献ワシントン大学科学論文

近年は生命分子の構造と相互作用を予測するAIモデル「AlphaFold 3」がリリースされたり、「ChatGPTのおかげで論文を読む手間が99％減った」と研究者が報告したりするなど、科学研究におけるAIの活用はますます重要なものになっています。新たに、ワシントン大学とアレン人工知能研究所の研究チームが、科学文献の調査に... 続きを読む

ドコモ、GeminiやGPT-4oなどが1年無料「Stella AIセット割」

2024/11/22 5 users GEMINI ドコモ１年無料

オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM＆M2搭載MacBook Proでもローカル実行可能

2024/11/14 15 users 匹敵コーディング支援AI ローカル実行性能オープンソース

中国・Alibabaグループが開発する大規模言語モデル(LLM)「Qwen」の研究チームが、コード生成や補完、数学の推論タスクに特化したLLM「Qwen2.5-Coder」の新モデルを2024年11月12日にリリースしました。Qwen2.5-Coderのコーディング機能はGPT-4oに匹敵し、パラメータ数も最大320億で、M2搭載MacBook Pro上でも実行できたこ... 続きを読む

25グラムの「AIレコーダー」が“仕事”を激変させる？　サッと録音→GPT-4oですぐ要約　話題のガジェットを使ってみた

2024/11/13 18 users 要約 AIレコーダーガジェット録音 25グラム

2024年12月、ウェアラブル型の“AIデバイス”が日本に上陸する。生成AIとボイスレコーダーを組み合わせた米Nicebuildの「PLAUD NotePin」（プラウドノートピン）だ。本体価格は2万8600円。腕時計やピンバッジのように身に着けて会話を録音し、米OpenAIの大規模言語モデル（LLM）「GPT-4o」と連携して文字起こしや要約がで... 続きを読む

OpenAIのCEOが「o2が博士号レベルのベンチマークで105％のスコアを達成」とSNSに投稿、次期AIモデルはGPT-4oでも53.6％しか記録できなかった高難度テストで約2倍のスコアを達成か

2024/11/03 19 users OpenAI SAMA サム Sam Altman CEO

OpenAIのサム・アルトマンCEOが自身のXアカウントに「o2がGPQAで105％のスコアを達成したと聞いた」と2024年11月3日(日)に投稿しました。「o2」の正式名称は不明ですが、OpenAIが開発中の次世代AIモデルが驚異的な性能を備えている可能性が濃厚となっています。 i heard o2 gets 105% on GPQA— Sam Altman (@sama) Novem... 続きを読む

［速報］GitHub CopilotでGemini 1.5 Pro、Claude 3.5 Sonnetが選択可能に。OpenAIのGPT-4o、o1-preview、o1-miniにも対応

2024/10/29 85 users OpenAI Anthropic o1-preview 速報

基調講演では、GitHub Copilotの新機能としてAnthropicやGoogleの大規模言語モデルが選択可能になることが発表されました。選択可能になるのはAnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Pro、OpenAIのGPT-4o、o1-preview、o1-miniです。 Claude 3.5 Sonnetは本発表と同時にGitHub Copilotで利用可能となり、Go... 続きを読む

DuolingoのAI英会話｢MAX｣がついに日本語対応。GPT-4o対応で英語力が伸びる理由を聞いた

2024/10/16 13 users Duolingo MAU chatgpt ＭＡＸ GPT-4

2012年に正式リリースされ、現在までに全世界のMAU（月間アクティブユーザー）が1億360万人を超える語学学習アプリ｢Duolingo（デュオリンゴ）｣。42種類の異なる言語を扱い、合計100以上のコースを提供している。 9月25日には、ChatGPTの｢GPT-4｣および最新モデル｢GPT-4o｣を搭載した新プラン｢Duolingo Max｣（月額4490円、... 続きを読む

720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル

2024/10/09 11 users AI2 オープンモデル Melissa Heikkil 訓練

アレン人工知能研究所（Ai2）がマルチモーダル言語モデル「Molmo」ファミリーをリリースした。質の高いデータと効率的な訓練によって720億パラメーターのモデルでGPT-4oを上回る性能を示したという。 by Melissa Heikkilä2024.10.09 8 非営利研究機関のアレン人工知能研究所（Ai2）は、オープンソース・マルチモーダル言... 続きを読む

OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上

2024/10/02 9 users OpenAI ファインチューニングタスク性能向上

OpenAIが2024年5月にリリースしたAIモデル「GPT-4o」に、2024年10月1日から「画像でファインチューニングする機能」が追加されました。すでにテキストでGPT-4oをファインチューニングする機能は提供されていましたが、画像でのファインチューニングが可能になったことで、視覚検索やオブジェクト検出などの機能を向上さ... 続きを読む

小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも

2024/09/26 9 users OpenAI マルチモーダルAI アレン人工知能研究所性能

2024年9月25日、アレン人工知能研究所(Ai2)が新たなマルチモーダルAI「Molmo」をオープンソースでリリースしました。MolmoはOpenAIのGPT-4oやGoogleのGemini 1.5 Proといった、大手企業が開発した最先端のAIに匹敵する性能を持ちながら、モデルのサイズは約10分の1と非常に小さくなっています。ブラウザでMolmoの性能を... 続きを読む

「Duolingo Max」が日本上陸！GPT-4／GPT-4oを活用した「リリーとビデオ通話」機能が新たに登場！

2024/09/25 6 users リリー GPT-4 ビデオ通話日本上陸機能

「Duolingo Max」が日本上陸！GPT-4／GPT-4oを活用した「リリーとビデオ通話」機能が新たに登場！キャラクターの性格に合わせてAIモデルをトレーニング　”本格的でリアルな” 没入型の英語学習を実現世界で最も人気のある語学学習アプリDuolingo（本社所在地：Pittsburgh, USA、以下「Duolingo」）は、生成AIを搭載した... 続きを読む

ChatGPT (o1-preview) にテストを渡してコードを実装させるとどうなるか試した

2024/09/16 236 users プロンプト chatgpt o1-preview やり取り

はじめに前にも別のモデルでやってるただ o1-preview は、やり取りを重ねるよりも一発で終わらせるほうがいいらしいので、最終的なテスト全体を渡すようにした。情報の提示方法が異なると当然結果も変わるので、 gpt-4o でも同様なことを試した。材料プロンプトは以下。基本的に最初にやったときと同じ。ペアプロ... 続きを読む