タグ 強化学習
人気順 5 users 10 users 50 users 500 users 1000 usersLLM時代の強化学習 - どこから見てもメンダコ
強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む
誰でもわかる強化学習
本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強... 続きを読む
ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む
オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI
Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVic... 続きを読む
自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常
こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていまし... 続きを読む
強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む
「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) - ITmedia NEWS
「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) AIベンチャーのAVILENが、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリース。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負け... 続きを読む
Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 - ログミーTech
Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 Ponanza 強化学習とA/Bテスト運用 2019年1月28日、AWS Loft Tokyoにて「囲碁・将棋分野でのコンピューター活用の最前線〜あの天才女流棋士たちも活用するAWS〜」が開催されました。囲碁・将棋の世界では、コンピューターによる強化学習を取り入れた戦術... 続きを読む
Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium
2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。 特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む
Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium
2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。 特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む
「AlphaZero」がチェス、将棋、囲碁の各世界最強AIを打ち負かす - ITmedia NEWS
Google系列のAI企業DeepMindの強化学習採用AI「AlphaZero」が、チェスのAI世界チャンピオン「Stockfish」、世界コンピュータ将棋選手権の2017年の勝者「elmo」、そして自社の囲碁AIで世界最強の「AlphaGo Zero」に勝利した。 米Alphabet傘下の英DeepMindは12月6日(現地時間)、「AlphaGo Zero」から進化させた強化学習... 続きを読む
スマホで“人工生命”を育成 ドワンゴ、「ARTILIFE」プロジェクト発表 - ITmedia NEWS
ドワンゴが、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。強化学習を用いた人工生命のモーションを自動生成する技術を活用した。 ドワンゴは10月25日、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。まずはニコニコ動画で活躍するユ... 続きを読む
今の将棋ソフトはAlphaZeroを超えている件 - コンピュータ将棋 Qhapaq
AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニングと強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。 人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-... 続きを読む
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む
ディープラーニングのハイパーパラメータ自動調整の概要 - HELLO CYBERNETICS
2018 - 02 - 10 ディープラーニングのハイパーパラメータ自動調整の概要 Follow @ML_deep SNSでこの記事をシェアする Bookmark! Facebook Twitter Google+ Pocket はじめに ハイパーパラメータ自動調整の概要 学習という関数 グリッドサーチ 関数近似器(ガウス過程)による方法 メタヒューリスティック最適化 強化学習 まとめ ライブラリ... 続きを読む
これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita
これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。 さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。 本記事では、ひとつずつ解説します。 オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ● 速習 ... 続きを読む
これさえ読めばすぐに理解できる強化学習の導入と実践 - DeepAge
強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識... 続きを読む
機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS
2017 - 07 - 22 機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 雑談 雑談-IT関連 Follow @ML_deep SNSでこの記事をシェアする Bookmark! Facebook Twitter Google+ Pocket はじめに ここでは、機械学習、ディープラーニング、強化学習、ベイズを 無料で学ぶことのできる オンラインリソースを項目ごとにまとめておきま... 続きを読む
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 | Seamless
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 2017.07.11 AI Simulation 論文 GoogleのAIを研究する子会社「DeepMind」は、強化学習で人型含めシミュレートされた環境の中で複雑で柔軟な動きを生成するアプローチを提案した論文を 公開しました。 Em... 続きを読む
深層学習を超えた手法とは何か : 思考のカケラ
最近、深層学習の精度を超えた手法が発表されています。 今回は、昨日(6月17日)ニュースになったDeepmindによるPredictron(自動計画+強化学習)も含めて、紹介します。 *少し長くなっておりますので、必要な部分だけ読んでいただけたらと思います。 目次 1.Predictron 2.Deepforest 1.Predictron ・Predictronとは何か Predictronとは... 続きを読む
深層強化学習ライブラリChainerRL | Preferred Research
Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の... 続きを読む
ゼロからDeepまで学ぶ強化学習 - Qiita
ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(い... 続きを読む
強化学習で考えるギャンブラーの最適行動 - kivantium活動日記
2015-09-29 強化学習で考えるギャンブラーの最適行動 強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。... 続きを読む
強化学習 - DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita
はじめに そもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました。またどうせ公開するなら、この機会にこれ(Q学習+関数近似)関連で持っている知識をついでに整理しようと思ってまとめました。 ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー!!!... 続きを読む