タグ「強化学習」 - はてブログ

タグ強化学習

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 85件)

高速推論が可能なレイテンシ重視AIモデル「Mistral Small 3」がリリースされる

2025/01/31 10 users 高速推論レイテンシ front Mistral AI ベース

フランスのAIスタートアップであるMistral AIが、レイテンシを重視したAIモデル「Mistral Small 3」をオープンソースライセンスでリリースしました。今回リリースされたMistral Small 3をベースに強化学習などを使用してさらに強力なモデルが作成できる可能性があるとのことです。 Mistral Small 3 | Mistral AI | Front... 続きを読む

LLMチューニングのための強化学習：GRPO（Group Relative Policy Optimization） - どこから見てもメンダコ

2025/01/26 64 users メンダコ contents DeepSeek-R1 性能話題

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimization）について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法前提手法：TRPO/PPO TRPO: Trust Region Policy Optimization PPO: Proximal Policy Optimization GRPOとPPOの差分：... 続きを読む

Computer-Using Agent の概要｜npaka

2025/01/23 8 users npaka Computer-Using Agent 概要

以下の記事が面白かったので、簡単にまとめました。・Computer-Using Agent 1. Computer-Using Agent「Computer-Using Agent」(CUA) は、「GPT-4o」の視覚機能と強化学習による高度な推論機能を組み合わせたモデルです。人間と同じように、画面に表示されるボタン、メニュー、テキストフィールドなどのグラフィカルユ... 続きを読む

OpenAIの「o1」と同レベルうたうLLM「R1」登場、中国DeepSeekから　商用利用可

2025/01/21 22 users OpenAI LLM 中国DeepSeek MITライセンス

中国のAI企業DeepSeekは1月20日（日本時間）までに、米OpenAIの「o1」と同レベルの性能をうたう大規模言語モデル（LLM）「DeepSeek-R1」を公開した。いずれもオープンソースで、MITライセンスのため、商業利用なども認めている。大規模な強化学習のみでトレーニングしたという「DeepSeek-R1-Zero」、教師あり微調整を行... 続きを読む

将棋AIの強化学習の基礎が根底から変わりそうな件 | やねうら王公式サイト

2024/12/30 226 users 根底対局将棋ＡＩやねうら王局面

将棋AIでは、教師(教師局面)を生成して、そこから評価関数パラメーターの学習を行っている。AlphaZeroなんかもそうしている。教師は、実際に対局して生成する。ところが、この対局は、1手指すごとに何千とか何万とかの局面を探索しないといけない。Deep Learning(以下DLと略す)系の将棋AIの場合、何千とか何万の局面を... 続きを読む

「AI、このタスクお願いね」が現実に？　生成AIの発展系「AIエージェント」でできること

2024/07/19 10 users 生成AI AIエージェント現実 chatgpt 発展系

「ChatGPT」の登場から約1年半がたち、企業では生成AIの導入や活用が広がっている。業務課題の解決策や新規ビジネスに挑戦する足掛かりなど、さまざまな業界や用途で熱い視線が注がれている。そうした中、ChatGPTの“次”として注目を集めるのが「AIエージェント」だ。生成AIや強化学習が専門の今井翔太氏（元・東京大学... 続きを読む

変化の早い時代をエンジニアとしてサバイブする「人間力」を身につけるには　「AIを知る」「意思決定という強化学習を繰り返す」「“逆張り力”を鍛える」

2024/05/14 8 users エンジニア逆張り意思決定みなさん今井さん

AIは逆張りがあまり得意ではない佐地良太氏（以下、佐地）：まだお話ししたいところではあるんですが、最後のテーマで、その人間力ってどうやって見つけられるのかというところですね。今井さんに「人間力ってそもそも」みたいなところも絡めてお話しいただいたと思いますが、みなさんが考える「人間力って何？」みた... 続きを読む

強化学習未経験者がテトリスの AI を作ってみた話

2024/05/01 13 users テトリス過程特定概要ライン

はじめにこの度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます！今回の AI の概要今回作成したテトリス AI の概要は以下の通りです。特定のゲームの... 続きを読む

Unity Learnチュートリアル「ML-Agents：ハチドリ」で強化学習を始めよう｜①Flowerクラスの実装

2024/01/21 8 users ハチドリ Unity フレームワークチュートリアル実装

ML-Agents：ハチドリ Unityには、強化学習を構築するためのフレームワークであるML-Agentsがあります。また、Unityの公式なチュートリアル&コースウェアを提供するUnity Learnにおいて、このML-Agentsのチュートリアルを提供する「ML-Agents：ハチドリ」があります。「ML-Agents：ハチドリ」は、Humming bird (ハチドリ... 続きを読む

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 104 users メンダコ VLM LLM LLM時代課題

強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 311 users LLM DQN Deep Q-Network 手法講義資料

本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 104 users chatgpt RLHF プラットフォームセルフホスト実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

応用から学ぶ強化学習

2023/06/06 7 users 応用

Go1.20からサポートされるtree構造のerrの紹介と、treeを考慮した複数マッチができるライブラリを作った話/introduction of tree structure err added since go 1_20 続きを読む

強化学習の基礎まとめ - Qiita

2023/05/12 13 users Qiita deep 手法 Q学習コード

こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 134 users Stable Diffusion チャットボットリリース

Stability AIが、オープンソースのチャットボット「StableVicuna」を発表オンラインで「StableVicuna」との会話を試すことが可能チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日（金）にオープンソースのチャットボット「StableVicuna」を発表しました。 Announcing StableVic... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解｜npaka｜note

2023/04/27 47 users RLHF 文脈目覚ましい成果 Note フィードバック

以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

大規模言語モデルのための強化学習｜npaka｜note

2023/04/24 9 users npaka｜note 言語モデル LLM chatgpt 学習

以下の記事が面白かったので、軽く要約しました。・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いまし... 続きを読む

強化学習とは？機械学習との違いなどの用語解説や活用事例などをご紹介

2023/03/23 13 users 機械学習用語解説活用事例アルゴリズム関数

強化学習とは AIの定義は難しく、さまざまな視点での分類・定義が存在します。ひとつは、事前にプログラムされたアルゴリズムをトレースするのではなく、入力に対して、パターンや特徴を抽出して、特定の値を出力する特殊な関数とする考え方です。この考え方でAIを実現する技術のひとつに機械学習があります。用語の整... 続きを読む

言語的抽象化で突破するプロンプトコーディング（自然言語強化学習コーディングと高級言語強化学習コーディングの違い）｜落合陽一｜note

2023/03/21 7 users 落合陽一 Note 抽象化文脈 GPT-4

GPT-4が出てからプロンプトコーディングが楽しい．極意がある．言語である．言語である抽象性を使うことで新規オブジェクト定義も強化学習もそして，説明可能AIの文脈も含めて研究可能なのである． 1. オブジェクトを作成 2. オブジェクトはサブオブジェクトを持つ 3. サブオブジェクトは特定の知識や能力を持つ 4. サブ... 続きを読む

Unity + Python + 箱庭でロボットを強化学習させてみよう！ - Qiita

2023/01/28 23 users Linux Qiita Mac Unity上前提

概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います！前提とする環境現時点では、以下の環境を想定しております(将来的にはMac/Linuxも対応予定) Unity ... 続きを読む

NVIDIAがロボット開発シミュレータ「Isaac Sim」を大幅アップデート物流倉庫/製造業/ROS/ルート設定/強化学習など機能アップ - ロボスタロボスタ - ロボット情報WEBマガジン

2023/01/05 5 users NVIDIA トレーニロボスタ物流倉庫製造業

シェア 0 ツイート 0 はてブ 2 NVIDIAはCES 2023にて、ロボティクスシミュレーションツールであるIsaac Simの大幅なアップデートを発表した。最新バージョンは製造および物流ロボットのユースケースのパフォーマンスと機能の改善に重点を置いている。これにより、開発者や研究者はインテリジェントなロボットのトレーニ... 続きを読む

AI最大の課題「フレーム問題」解決の糸口をグリッドが開発！強化学習とアンサンブル学習を連携米国物理学協会発刊学術誌が掲載 - ロボスタロボスタ - ロボット情報WEBマガジン

2022/08/02 14 users 糸口グリッドロボスタアンサンブル学習深層強化学習

シェア 0 ツイート 0 はてブ 0 株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renew... 続きを読む

1000台超のPS4で強化学習。ソニーのAI｢Sophy｣は何がすごいのか…グランツーリスモの未来

2022/02/13 13 users グランツーリスモソフィーソニーソニーAI オンライン会見

グランツーリスモでeスポーツトップドライバーと、AIドライバーである｢Sophy｣が対戦する様子。オンライン会見を筆者キャプチャーソニーが開発した｢AI｣が、プロのeスポーツ・レーサーに勝利した。その名は｢Grand Turismo Sophy（ソフィー、以下Sophy）｣。 2020年にソニーが設立したAIの基礎研究機関である｢ソニーAI｣と... 続きを読む

東京大学、強化学習と統計的自然言語処理の講義資料が無料公開サイバーエージェントの講師ら担当 | Ledge.ai

2021/09/24 16 users サイバーエージェント Ledge.ai 講義資料東京大学

「Summer School 数理物理」は1987年に第1回目を開催した、これから研究を始めようとしている大学院生や、数理物理の広い分野にわたる（専門外の）研究者を対象にした入門的な講義。主なターゲットは若手研究者や大学院生だが、学部学生や一般社会人を含む幅広い範囲の参加者が集まるという。＼資料公開／ Summer Schoo... 続きを読む

強化学習とは何か？「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか連載：図でわかる3分間AIキソ講座｜ビジネス+IT

2021/01/18 5 users 3分間AIキソ講座連載機械学習モデル動物課題解決

Excelの新機能「Custom Data Types」を解説、セルの関連情報をマウス操作で参照可能に続きを読む

(1 - 25 / 85件)

次の25件 »