タグ Reinforcement Learning
人気順 10 users 50 users 100 users 500 users 1000 users人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される
大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFar... 続きを読む
自動運転AI、常識破りの「教師なし学習」による超進化 | 自動運転ラボ
自動運転の実現に欠かすことのできないAI(人工知能)技術。深層学習(ディープラーニング)や強化学習(Reinforcement Learning/RL)などさまざまな学習方法のもと研究開発が進められている。 中には、「教師なし学習」に注目する企業も現れたようだ。この手法を活用することにより、学習にかかるコストや時間を大幅に... 続きを読む
machina | A Library for Real‑World Deep Reinforcement Learning
machina (mάkɪnə) is a library designed for applying Deep Reinforcement Learning (DRL) to real world tasks. Deep Reinforcement Learning has seen a considerable increase in the number of available algorithms and policies. Development for real-world tasks is challenging due to the trial-and-error ap... 続きを読む
Amazonが開発者たちに機械学習を教えるために、縮小版自動運転車を発表 | TechCrunch Japan
Amazonは本日(米国時間11月28日)、開発者が機械学習を学ぶのを助けることを目的とした、完全に自律的な1/18スケールのレースカーAWS DeepRacerを発表した。定価は399ドルだが、現在は249ドルで提供されている。このレースカーは、強化学習(RL:Reinforcement learning)と呼ばれる機械学習技術を、開発者が文字通りハ... 続きを読む
Microsoftが公開したテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldで人間が遊んでみた | Developers.IO
はじめに 先月、Microsoftからテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldが公開されました。 TextWorld: A learning environment for training reinforcement learning agents, inspired by text-based games - Microsoft Research テキストアドベンチャーゲームとは、アドベンチャーゲームと... 続きを読む
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む
論文:Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning - うどん記
2017 - 02 - 25 論文:Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning モデルフリー系の深層強化学習の手法を用いて スマブラDX のゲームAIを作ったという論文が出ていたので読んだ。以下はそのメモ。 概要 論文URL : https://arxiv.org/abs/... 続きを読む
深層強化学習ライブラリChainerRL | Preferred Research
Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の... 続きを読む
Deep Learning最新論文の再現コードを試行(DeepMindのA3C) - Itsukaraの日記
2016 - 07 - 29 Deep Learning最新論文の再現コードを試行(DeepMindのA3C) 機械学習 ITのお勉強 Python 前回の記事 で書きましたように、DeepMind社の最新論文 Asynchronous Methods for Deep Reinforcement Learning、16 Jun 2016 に書かれた手法A3C(Asynchronous Advan... 続きを読む
DQN (Code for Human-Level Control through Deep Reinforcement Learning)
Code for Human-Level Control through Deep Reinforcement Learning 続きを読む
論文紹介「Playing Atari with Deep Reinforcement Learning」 | 塚原裕史のブログ
本日、社内で行った論文紹介の資料です。この論文では、Deep Learning と Q-Learning とを融合する方法が提案されています。この概要のみを解説しています。 続きを読む