タグ「強化学習」 - はてブログ

タグ強化学習

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 72件)

将棋AIの強化学習の基礎が根底から変わりそうな件 | やねうら王公式サイト

2024/12/30 12 users 根底対局将棋ＡＩやねうら王局面

将棋AIでは、教師(教師局面)を生成して、そこから評価関数パラメーターの学習を行っている。AlphaZeroなんかもそうしている。教師は、実際に対局して生成する。ところが、この対局は、1手指すごとに何千とか何万とかの局面を探索しないといけない。Deep Learning(以下DLと略す)系の将棋AIの場合、何千とか何万の局面を... 続きを読む

「AI、このタスクお願いね」が現実に？　生成AIの発展系「AIエージェント」でできること

2024/07/19 10 users 生成AI AIエージェント現実 chatgpt 発展系

「ChatGPT」の登場から約1年半がたち、企業では生成AIの導入や活用が広がっている。業務課題の解決策や新規ビジネスに挑戦する足掛かりなど、さまざまな業界や用途で熱い視線が注がれている。そうした中、ChatGPTの“次”として注目を集めるのが「AIエージェント」だ。生成AIや強化学習が専門の今井翔太氏（元・東京大学... 続きを読む

強化学習未経験者がテトリスの AI を作ってみた話

2024/05/01 13 users テトリス過程特定概要ライン

はじめにこの度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます！今回の AI の概要今回作成したテトリス AI の概要は以下の通りです。特定のゲームの... 続きを読む

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 104 users メンダコ VLM LLM LLM時代課題

強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 311 users LLM DQN Deep Q-Network 手法講義資料

本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 104 users chatgpt RLHF プラットフォームセルフホスト実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

強化学習の基礎まとめ - Qiita

2023/05/12 13 users Qiita deep 手法 Q学習コード

こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 134 users Stable Diffusion チャットボットリリース

Stability AIが、オープンソースのチャットボット「StableVicuna」を発表オンラインで「StableVicuna」との会話を試すことが可能チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日（金）にオープンソースのチャットボット「StableVicuna」を発表しました。 Announcing StableVic... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解｜npaka｜note

2023/04/27 47 users RLHF 文脈目覚ましい成果 Note フィードバック

以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

強化学習とは？機械学習との違いなどの用語解説や活用事例などをご紹介

2023/03/23 13 users 機械学習用語解説活用事例アルゴリズム関数

強化学習とは AIの定義は難しく、さまざまな視点での分類・定義が存在します。ひとつは、事前にプログラムされたアルゴリズムをトレースするのではなく、入力に対して、パターンや特徴を抽出して、特定の値を出力する特殊な関数とする考え方です。この考え方でAIを実現する技術のひとつに機械学習があります。用語の整... 続きを読む

Unity + Python + 箱庭でロボットを強化学習させてみよう！ - Qiita

2023/01/28 23 users Linux Qiita Mac Unity上前提

概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います！前提とする環境現時点では、以下の環境を想定しております(将来的にはMac/Linuxも対応予定) Unity ... 続きを読む

AI最大の課題「フレーム問題」解決の糸口をグリッドが開発！強化学習とアンサンブル学習を連携米国物理学協会発刊学術誌が掲載 - ロボスタロボスタ - ロボット情報WEBマガジン

2022/08/02 14 users 糸口グリッドロボスタアンサンブル学習深層強化学習

シェア 0 ツイート 0 はてブ 0 株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renew... 続きを読む

1000台超のPS4で強化学習。ソニーのAI｢Sophy｣は何がすごいのか…グランツーリスモの未来

2022/02/13 13 users グランツーリスモソフィーソニーソニーAI オンライン会見

グランツーリスモでeスポーツトップドライバーと、AIドライバーである｢Sophy｣が対戦する様子。オンライン会見を筆者キャプチャーソニーが開発した｢AI｣が、プロのeスポーツ・レーサーに勝利した。その名は｢Grand Turismo Sophy（ソフィー、以下Sophy）｣。 2020年にソニーが設立したAIの基礎研究機関である｢ソニーAI｣と... 続きを読む

東京大学、強化学習と統計的自然言語処理の講義資料が無料公開サイバーエージェントの講師ら担当 | Ledge.ai

2021/09/24 16 users サイバーエージェント Ledge.ai 講義資料東京大学

「Summer School 数理物理」は1987年に第1回目を開催した、これから研究を始めようとしている大学院生や、数理物理の広い分野にわたる（専門外の）研究者を対象にした入門的な講義。主なターゲットは若手研究者や大学院生だが、学部学生や一般社会人を含む幅広い範囲の参加者が集まるという。＼資料公開／ Summer Schoo... 続きを読む

Control as Inference (強化学習とベイズ統計)

2020/08/29 14 users ベイズ統計ＭＤＰ

Control as Inference (強化学習とベイズ統計) 1. TA Control as Inference 5 2. Control as Inference (POMDP) 3. … 4. … 5. … ??? ??? ??? 6. etc. 7. … 8. ‣ ‣ MDP (POMDP) 9. Control as Inference (POMDP) 10. x1, …, xN ∼ p (X) 11. p (X) θ p (X ∣ θ) p (X = k ∣ θ) = μk θ(1 − μθ)1−k μθ 1 − μθ μθ 12. 1. e.g.,... 続きを読む

(1 - 25 / 72件)

次の25件 »