タグ 強化学習
人気順 5 users 10 users 100 users 500 users 1000 usersLLM時代の強化学習 - どこから見てもメンダコ
強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む
誰でもわかる強化学習
本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強... 続きを読む
ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む
オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI
Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVic... 続きを読む
自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていまし... 続きを読む
強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む
「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) - ITmedia NEWS
「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) AIベンチャーのAVILENが、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリース。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負け... 続きを読む
文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説 (1/3) - ITmedia NEWS
最近よく耳にするようになった「機械学習」という言葉。ビジネスで活用するには機械学習でできることとその限界を理解しておく必要があるだろう。 前回記事では、機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類が存在することを解説した。今回はこの3つについて、もう少し詳しく整理して... 続きを読む
強化学習における好奇心 - Speaker Deck
強化学習では,環境で得られる報酬がスパースである場合,うまく学習することができない.この問題を解決するための手法として,強化学習のエージェントに「好奇心」を与える研究が注目されている.本スライドでは,深層強化学習の登場以降に発表された「好奇心」を利用した強化学習の研究をまとめた.特に主要ベンチマ... 続きを読む
Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 - ログミーTech
Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 Ponanza 強化学習とA/Bテスト運用 2019年1月28日、AWS Loft Tokyoにて「囲碁・将棋分野でのコンピューター活用の最前線〜あの天才女流棋士たちも活用するAWS〜」が開催されました。囲碁・将棋の世界では、コンピューターによる強化学習を取り入れた戦術... 続きを読む
ファジングと統計学 - Qiita
はじめに 本稿ではファジングのシードスケジューリング問題に対する統計学的なアプローチについてまとめる。統計学、強化学習の基礎、特に二項分布と標本検定および多腕バンディット問題については既知とする。 ファジングとはソフトウェアのバグ(特に脆弱性)を発見するためのソフトウェアテストの一種で、テスト対象の... 続きを読む
Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium
2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。 特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む
Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium
2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。 特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む
「AlphaZero」がチェス、将棋、囲碁の各世界最強AIを打ち負かす - ITmedia NEWS
Google系列のAI企業DeepMindの強化学習採用AI「AlphaZero」が、チェスのAI世界チャンピオン「Stockfish」、世界コンピュータ将棋選手権の2017年の勝者「elmo」、そして自社の囲碁AIで世界最強の「AlphaGo Zero」に勝利した。 米Alphabet傘下の英DeepMindは12月6日(現地時間)、「AlphaGo Zero」から進化させた強化学習... 続きを読む
スマホで“人工生命”を育成 ドワンゴ、「ARTILIFE」プロジェクト発表 - ITmedia NEWS
ドワンゴが、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。強化学習を用いた人工生命のモーションを自動生成する技術を活用した。 ドワンゴは10月25日、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。まずはニコニコ動画で活躍するユ... 続きを読む
今の将棋ソフトはAlphaZeroを超えている件 - コンピュータ将棋 Qhapaq
AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニングと強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。 人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-... 続きを読む
Microsoftが公開したテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldで人間が遊んでみた | Developers.IO
はじめに 先月、Microsoftからテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldが公開されました。 TextWorld: A learning environment for training reinforcement learning agents, inspired by text-based games - Microsoft Research テキストアドベンチャーゲームとは、アドベンチャーゲームと... 続きを読む
レトロゲームの攻略をAIに学習させてスーパープレイを生み出すことが可能な「Gym Retro」 - GIGAZINE
AIに関する非営利の研究機関として設立された OpenAI は、レトロゲームの攻略をAIに学習させる 強化学習(RL) 用のプラットフォーム「 Gym Retro 」をリリースしました。Gym Retroを使用することで、RLの学術研究に役立てたり、効率的なゲームの攻略法をAIに編み出させたりすることができるとのことです。 Gym Retro https://blog.openai.com/gym... 続きを読む
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む
強化学習の基本 Qラーニングを直観的に理解するためのアニメーションによる可視化 - Qiita
経路探索問題を強化学習で解き、その過程を アニメーションで可視化しました。 ↑↓で速度調節、Spaceで最速の学習、ドラッグ or タップで障害物の追加ができます。 これにより、強化学習で何をしているのか直観的に分かりやすくなりました。 問題設定 本アニメーションで可視化している問題の設定は、下記の通りです。 条件 $n\times n$のマスからなる離散的なフィールド 固定の初期位置と目標位置(... 続きを読む
ディープラーニングのハイパーパラメータ自動調整の概要 - HELLO CYBERNETICS
2018 - 02 - 10 ディープラーニングのハイパーパラメータ自動調整の概要 Follow @ML_deep SNSでこの記事をシェアする Bookmark! Facebook Twitter Google+ Pocket はじめに ハイパーパラメータ自動調整の概要 学習という関数 グリッドサーチ 関数近似器(ガウス過程)による方法 メタヒューリスティック最適化 強化学習 まとめ ライブラリ... 続きを読む
強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング
DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、本プロジェクトを推進し研究・開発にAI(人工知能)が、人間の仕事を代替する。 近年、そんなフレーズが各種メディアに登場するようになりました。今後10~20年で、今存在しているさまざまな仕事は自動化されると考えられて... 続きを読む
これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。 さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。 本記事では、ひとつずつ解説します。 オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ● 速習 ... 続きを読む
これさえ読めばすぐに理解できる強化学習の導入と実践 - DeepAge
強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識... 続きを読む