タグ「強化学習」 - はてブログ

タグ強化学習

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 27件)

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 104 users メンダコ VLM LLM LLM時代課題

強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 311 users LLM DQN Deep Q-Network 手法講義資料

本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 104 users chatgpt RLHF プラットフォームセルフホスト実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 134 users Stable Diffusion チャットボットリリース

Stability AIが、オープンソースのチャットボット「StableVicuna」を発表オンラインで「StableVicuna」との会話を試すことが可能チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日（金）にオープンソースのチャットボット「StableVicuna」を発表しました。 Announcing StableVic... 続きを読む

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

2020/01/31 162 users カテゴライズ日常自分基礎資料

こんにちは。nino_piraです。先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていまし... 続きを読む

強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

2019/09/22 161 users 離散化 HELLO CYBERNETICS 評価関数最後

はじめにベルマン方程式の概要最適制御と評価関数最適制御評価関数価値関数ベルマンの最適性原理ベルマン方程式価値関数の離散化状態の時間発展再訪ベルマン方程式まとめ最後にはじめに強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む

「わざと負けようとしても無理」と話題　プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) - ITmedia NEWS

2019/08/06 189 users 生みの親オセロAI 裏話 AVILEN ブラウザゲーム

「わざと負けようとしても無理」と話題　プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) AIベンチャーのAVILENが、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリース。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負け... 続きを読む

Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 - ログミーTech

2019/04/23 265 users ログミーTech 囲碁山本一成氏 AWS 戦術

Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 Ponanza 強化学習とA/Bテスト運用 2019年1月28日、AWS Loft Tokyoにて「囲碁・将棋分野でのコンピューター活用の最前線〜あの天才女流棋士たちも活用するAWS〜」が開催されました。囲碁・将棋の世界では、コンピューターによる強化学習を取り入れた戦術... 続きを読む

Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium

2019/01/17 114 users Issue programming-soda medium

2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む

Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium

2019/01/17 114 users Issue programming-soda medium

「AlphaZero」がチェス、将棋、囲碁の各世界最強AIを打ち負かす - ITmedia NEWS

2018/12/09 196 users AlphaZero チェス囲碁 elmo 将棋

Google系列のAI企業DeepMindの強化学習採用AI「AlphaZero」が、チェスのAI世界チャンピオン「Stockfish」、世界コンピュータ将棋選手権の2017年の勝者「elmo」、そして自社の囲碁AIで世界最強の「AlphaGo Zero」に勝利した。米Alphabet傘下の英DeepMindは12月6日（現地時間）、「AlphaGo Zero」から進化させた強化学習... 続きを読む

スマホで“人工生命”を育成　ドワンゴ、「ARTILIFE」プロジェクト発表 - ITmedia NEWS

2018/10/25 182 users ARTILIFE ドワンゴモーション観察人工生命

ドワンゴが、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。強化学習を用いた人工生命のモーションを自動生成する技術を活用した。ドワンゴは10月25日、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。まずはニコニコ動画で活躍するユ... 続きを読む

今の将棋ソフトはAlphaZeroを超えている件 - コンピュータ将棋 Qhapaq

2018/10/06 144 users AlphaZero elmo 将棋ソフト ponanza 囲碁

AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニングと強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-... 続きを読む

ゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learni…

2018/03/24 378 users 藤田康博 Reinforcement Learning

ゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む

ゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement Learni…

2018/03/24 378 users 藤田康博 Reinforcement Learning

ディープラーニングのハイパーパラメータ自動調整の概要 - HELLO CYBERNETICS

2018/02/10 112 users ディープラーニング HELLO CYBERNETICS

2018 - 02 - 10 ディープラーニングのハイパーパラメータ自動調整の概要 Follow @ML_deep SNSでこの記事をシェアする Bookmark! Facebook Twitter Google+ Pocket はじめにハイパーパラメータ自動調整の概要学習という関数グリッドサーチ関数近似器（ガウス過程）による方法メタヒューリスティック最適化強化学習まとめライブラリ... 続きを読む

これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

2017/10/30 198 users マップ例題アルゴリズム文献速習

これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。本記事では、ひとつずつ解説します。オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ● 速習 ... 続きを読む

これさえ読めばすぐに理解できる強化学習の導入と実践 - DeepAge

2017/08/11 322 users DeepAge Atari Q-Learning 進歩実装

強化学習の位置づけ教師あり学習教師なし学習強化学習強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得ファイナンスへの応用広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる状態行動報酬実装参考文献ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識... 続きを読む

機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座 - HELLO CYBERNETICS

2017/07/21 422 users ベイスディープラーニング機械学習 bookmark 雑談

2017 - 07 - 22 機械学習・ディープラーニング・強化学習・ベイズを学べる無料講座雑談雑談-IT関連 Follow @ML_deep SNSでこの記事をシェアする Bookmark! Facebook Twitter Google+ Pocket はじめにここでは、機械学習、ディープラーニング、強化学習、ベイズを無料で学ぶことのできるオンラインリソースを項目ごとにまとめておきま... 続きを読む

Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法（柔軟な動き）を独学で生成する強化学習を用いたアプローチを提案した論文を発表 | Seamless

2017/07/11 305 users seamless DeepMind 独学最善論文

Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法（柔軟な動き）を独学で生成する強化学習を用いたアプローチを提案した論文を発表 2017.07.11 AI Simulation 論文 GoogleのAIを研究する子会社「DeepMind」は、強化学習で人型含めシミュレートされた環境の中で複雑で柔軟な動きを生成するアプローチを提案した論文を公開しました。 Em... 続きを読む

深層学習を超えた手法とは何か : 思考のカケラ

2017/06/18 275 users かけら DeepMind 深層学習思考手法

最近、深層学習の精度を超えた手法が発表されています。今回は、昨日（6月17日）ニュースになったDeepmindによるPredictron（自動計画＋強化学習）も含めて、紹介します。＊少し長くなっておりますので、必要な部分だけ読んでいただけたらと思います。目次１．Predictron ２．Deepforest １．Predictron ・Predictronとは何か Predictronとは... 続きを読む

深層強化学習ライブラリChainerRL | Preferred Research

2017/02/20 159 users Preferred Research Chainer 藤田

Chainerを使った深層強化学習ライブラリChainerRLを公開しました． https://github.com/pfnet/chainerrl PFNエンジニアの藤田です．社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました．RLはReinforcement Learning（強化学習）の略です．以下のような最近の... 続きを読む

ゼロからDeepまで学ぶ強化学習 - Qiita

2016/06/07 532 users Q-Learning 囲碁将棋 Qiita deep

ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(い... 続きを読む

強化学習で考えるギャンブラーの最適行動 - kivantium活動日記

2015/09/29 153 users ギャンブラーアルゴリズム出力正解報酬

2015-09-29 強化学習で考えるギャンブラーの最適行動強化学習と呼ばれる機械学習の一分野があります。機械学習というと、入力に対して正解の出力を当てる教師あり学習が話題になることが多いですが、強化学習では明示的に正解が与えられません。ある行動を試してみて、それに対して得られる「報酬」から自分でどのような行動が良い結果をもたらすのかを判断して、より良い行動を学習するアルゴリズムになっています。... 続きを読む

強化学習 - DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた - Qiita

2015/07/11 184 users Qiita Chainer NIPS DQN Nature

はじめにそもそもDQNが作りたかったわけじゃなくて、他の目的でChainerを使いたかったのでその練習にDQNを書いたんですが、せっかくだし公開しようと思いました。またどうせ公開するなら、この機会にこれ（Q学習+関数近似）関連で持っている知識をついでに整理しようと思ってまとめました。ニュース記事とかNatureとかNIPSの論文だけ読むと、DQN作ったDeepmind/Googleすげー！！！... 続きを読む

(1 - 25 / 27件)

次の25件 »