はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Reinforcement Learning

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 12 / 12件)
 

人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

2023/05/24 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip RLHF フィードバック 欠点 実在 スタンフォード大学

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFar... 続きを読む

自動運転AI、常識破りの「教師なし学習」による超進化 | 自動運転ラボ

2020/04/30 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 常識破り 教師 自動運転AI 自動運転ラボ 学習

自動運転の実現に欠かすことのできないAI(人工知能)技術。深層学習(ディープラーニング)や強化学習(Reinforcement Learning/RL)などさまざまな学習方法のもと研究開発が進められている。 中には、「教師なし学習」に注目する企業も現れたようだ。この手法を活用することにより、学習にかかるコストや時間を大幅に... 続きを読む

machina | A Library for Real‑World Deep Reinforcement Learning

2019/03/18 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip

machina (mάkɪnə) is a library designed for applying Deep Reinforcement Learning (DRL) to real world tasks. Deep Reinforcement Learning has seen a considerable increase in the number of available algorithms and policies. Development for real-world tasks is challenging due to the trial-and-error ap... 続きを読む

Amazonが開発者たちに機械学習を教えるために、縮小版自動運転車を発表 | TechCrunch Japan

2018/11/29 このエントリーをはてなブックマークに追加 40 users Instapaper Pocket Tweet Facebook Share Evernote Clip TechCrunch JAPAN 機械学習 Amazon

Amazonは本日(米国時間11月28日)、開発者が機械学習を学ぶのを助けることを目的とした、完全に自律的な1/18スケールのレースカーAWS DeepRacerを発表した。定価は399ドルだが、現在は249ドルで提供されている。このレースカーは、強化学習(RL:Reinforcement learning)と呼ばれる機械学習技術を、開発者が文字通りハ... 続きを読む

Microsoftが公開したテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldで人間が遊んでみた | Developers.IO

2018/08/15 このエントリーをはてなブックマークに追加 54 users Instapaper Pocket Tweet Facebook Share Evernote Clip テキストアドベンチャーゲーム アドベンチャーゲーム 人間

はじめに 先月、Microsoftからテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldが公開されました。 TextWorld: A learning environment for training reinforcement learning agents, inspired by text-based games - Microsoft Research テキストアドベンチャーゲームとは、アドベンチャーゲームと... 続きを読む

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…

2018/03/24 このエントリーをはてなブックマークに追加 378 users Instapaper Pocket Tweet Facebook Share Evernote Clip 藤田康博 Preferred Networks Tips

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…

2018/03/24 このエントリーをはてなブックマークに追加 378 users Instapaper Pocket Tweet Facebook Share Evernote Clip 藤田康博 Preferred Networks Tips

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む

論文:Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning - うどん記

2017/02/25 このエントリーをはてなブックマークに追加 66 users Instapaper Pocket Tweet Facebook Share Evernote Clip スマブラDX 論文 arXiv.org 深層強化学習 手法

2017 - 02 - 25 論文:Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning モデルフリー系の深層強化学習の手法を用いて スマブラDX のゲームAIを作ったという論文が出ていたので読んだ。以下はそのメモ。 概要 論文URL : https://arxiv.org/abs/... 続きを読む

深層強化学習ライブラリChainerRL | Preferred Research

2017/02/20 このエントリーをはてなブックマークに追加 159 users Instapaper Pocket Tweet Facebook Share Evernote Clip Preferred Research Chainer 藤田

Chainerを使った深層強化学習ライブラリChainerRLを公開しました. https://github.com/pfnet/chainerrl PFNエンジニアの藤田です.社内でChainerを使って実装していた深層強化学習アルゴリズムを”ChainerRL”というライブラリとしてまとめて公開しました.RLはReinforcement Learning(強化学習)の略です.以下のような最近の... 続きを読む

Deep Learning最新論文の再現コードを試行(DeepMindのA3C) - Itsukaraの日記

2016/12/25 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip DeepMind Python DeepMind社 機械学習

2016 - 07 - 29 Deep Learning最新論文の再現コードを試行(DeepMindのA3C) 機械学習 ITのお勉強 Python 前回の記事 で書きましたように、DeepMind社の最新論文 Asynchronous Methods for Deep Reinforcement Learning、16 Jun 2016 に書かれた手法A3C(Asynchronous Advan... 続きを読む

DQN (Code for Human-Level Control through Deep Reinforcement Learning)

2015/02/25 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip DQN

Code for Human-Level Control through Deep Reinforcement Learning 続きを読む

論文紹介「Playing Atari with Deep Reinforcement Learning」 | 塚原裕史のブログ

2014/06/07 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip Q-Learning 論文 Deep learning 概要

本日、社内で行った論文紹介の資料です。この論文では、Deep Learning と Q-Learning とを融合する方法が提案されています。この概要のみを解説しています。 続きを読む

 
(1 - 12 / 12件)