はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 強化学習

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 38件)

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip メンダコ VLM LLM LLM時代 課題

強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 このエントリーをはてなブックマークに追加 311 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM DQN Deep Q-Network 手法 講義資料

本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt RLHF プラットフォーム セルフホスト 実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 このエントリーをはてなブックマークに追加 134 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stable Diffusion チャットボット リリース

Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVic... 続きを読む

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

2020/01/31 このエントリーをはてなブックマークに追加 162 users Instapaper Pocket Tweet Facebook Share Evernote Clip カテゴライズ 日常 自分 基礎 資料

こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていまし... 続きを読む

強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

2019/09/22 このエントリーをはてなブックマークに追加 161 users Instapaper Pocket Tweet Facebook Share Evernote Clip 離散化 HELLO CYBERNETICS 評価関数 最後

はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む

「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) - ITmedia NEWS

2019/08/06 このエントリーをはてなブックマークに追加 189 users Instapaper Pocket Tweet Facebook Share Evernote Clip 生みの親 オセロAI 裏話 AVILEN ブラウザゲーム

「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) AIベンチャーのAVILENが、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリース。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負け... 続きを読む

文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説 (1/3) - ITmedia NEWS

2019/05/22 このエントリーをはてなブックマークに追加 74 users Instapaper Pocket Tweet Facebook Share Evernote Clip 限界 ビジネス 教師あり学習 文系 言葉

最近よく耳にするようになった「機械学習」という言葉。ビジネスで活用するには機械学習でできることとその限界を理解しておく必要があるだろう。 前回記事では、機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類が存在することを解説した。今回はこの3つについて、もう少し詳しく整理して... 続きを読む

強化学習における好奇心 - Speaker Deck

2019/05/02 このエントリーをはてなブックマークに追加 57 users Instapaper Pocket Tweet Facebook Share Evernote Clip Speaker Deck 好奇心 スパーズ エージェント 報酬

強化学習では,環境で得られる報酬がスパースである場合,うまく学習することができない.この問題を解決するための手法として,強化学習のエージェントに「好奇心」を与える研究が注目されている.本スライドでは,深層強化学習の登場以降に発表された「好奇心」を利用した強化学習の研究をまとめた.特に主要ベンチマ... 続きを読む

Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 - ログミーTech

2019/04/23 このエントリーをはてなブックマークに追加 265 users Instapaper Pocket Tweet Facebook Share Evernote Clip ログミーTech 囲碁 山本一成氏 AWS 戦術

Ponanza開発者、山本一成氏が語る強化学習とA/Bテスト運用の舞台裏 Ponanza 強化学習とA/Bテスト運用 2019年1月28日、AWS Loft Tokyoにて「囲碁・将棋分野でのコンピューター活用の最前線〜あの天才女流棋士たちも活用するAWS〜」が開催されました。囲碁・将棋の世界では、コンピューターによる強化学習を取り入れた戦術... 続きを読む

ファジングと統計学 - Qiita

2019/03/28 このエントリーをはてなブックマークに追加 52 users Instapaper Pocket Tweet Facebook Share Evernote Clip ファジング Qiita 既知 本稿 パク

はじめに 本稿ではファジングのシードスケジューリング問題に対する統計学的なアプローチについてまとめる。統計学、強化学習の基礎、特に二項分布と標本検定および多腕バンディット問題については既知とする。 ファジングとはソフトウェアのバグ(特に脆弱性)を発見するためのソフトウェアテストの一種で、テスト対象の... 続きを読む

Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium

2019/01/17 このエントリーをはてなブックマークに追加 114 users Instapaper Pocket Tweet Facebook Share Evernote Clip Issue programming-soda medium

2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。 特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む

Pythonで学ぶ強化学習 -入門から実践まで-を書きました – programming-soda – Medium

2019/01/17 このエントリーをはてなブックマークに追加 114 users Instapaper Pocket Tweet Facebook Share Evernote Clip Issue programming-soda medium

2019年1月時点で、私がアウトプット可能な強化学習についての知識は全てこの中に込めています。もう残っているのは誠意と買っていただいた感謝しかないため、もし誤記やエラー等ありましたら以下リポジトリのIssueにてご連絡をお願いいたします。 特に深層学習の領域は、もう発売された瞬間から情報が古くなっていきます... 続きを読む

「AlphaZero」がチェス、将棋、囲碁の各世界最強AIを打ち負かす - ITmedia NEWS

2018/12/09 このエントリーをはてなブックマークに追加 196 users Instapaper Pocket Tweet Facebook Share Evernote Clip AlphaZero チェス 囲碁 elmo 将棋

Google系列のAI企業DeepMindの強化学習採用AI「AlphaZero」が、チェスのAI世界チャンピオン「Stockfish」、世界コンピュータ将棋選手権の2017年の勝者「elmo」、そして自社の囲碁AIで世界最強の「AlphaGo Zero」に勝利した。 米Alphabet傘下の英DeepMindは12月6日(現地時間)、「AlphaGo Zero」から進化させた強化学習... 続きを読む

スマホで“人工生命”を育成 ドワンゴ、「ARTILIFE」プロジェクト発表 - ITmedia NEWS

2018/10/25 このエントリーをはてなブックマークに追加 182 users Instapaper Pocket Tweet Facebook Share Evernote Clip ARTILIFE ドワンゴ モーション 観察 人工生命

ドワンゴが、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。強化学習を用いた人工生命のモーションを自動生成する技術を活用した。 ドワンゴは10月25日、仮想空間で自律的に動く“人工生命”を観察・育成するプロジェクト「ARTILIFE」を発表した。まずはニコニコ動画で活躍するユ... 続きを読む

今の将棋ソフトはAlphaZeroを超えている件 - コンピュータ将棋 Qhapaq

2018/10/06 このエントリーをはてなブックマークに追加 144 users Instapaper Pocket Tweet Facebook Share Evernote Clip AlphaZero elmo 将棋ソフト ponanza 囲碁

AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニングと強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。 人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-... 続きを読む

Microsoftが公開したテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldで人間が遊んでみた | Developers.IO

2018/08/15 このエントリーをはてなブックマークに追加 54 users Instapaper Pocket Tweet Facebook Share Evernote Clip テキストアドベンチャーゲーム アドベンチャーゲーム 人間

はじめに 先月、Microsoftからテキストアドベンチャーゲームで強化学習を行うためのツールTextWorldが公開されました。 TextWorld: A learning environment for training reinforcement learning agents, inspired by text-based games - Microsoft Research テキストアドベンチャーゲームとは、アドベンチャーゲームと... 続きを読む

レトロゲームの攻略をAIに学習させてスーパープレイを生み出すことが可能な「Gym Retro」 - GIGAZINE

2018/05/26 このエントリーをはてなブックマークに追加 53 users Instapaper Pocket Tweet Facebook Share Evernote Clip Gym スーパープレイ OpenAI GIGAZINE 非営利

AIに関する非営利の研究機関として設立された OpenAI は、レトロゲームの攻略をAIに学習させる 強化学習(RL) 用のプラットフォーム「 Gym Retro 」をリリースしました。Gym Retroを使用することで、RLの学術研究に役立てたり、効率的なゲームの攻略法をAIに編み出させたりすることができるとのことです。 Gym Retro https://blog.openai.com/gym... 続きを読む

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…

2018/03/24 このエントリーをはてなブックマークに追加 378 users Instapaper Pocket Tweet Facebook Share Evernote Clip 藤田康博 Reinforcement Learning

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…

2018/03/24 このエントリーをはてなブックマークに追加 378 users Instapaper Pocket Tweet Facebook Share Evernote Clip 藤田康博 Reinforcement Learning

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning 1. ゼロから始める深層強化学習 株式会社 Preferred Networks 前田新一, 藤田康博 2. チュートリアルでお話したいこと 15分 40分前田 藤田 (3) 最近の応用事例 (4) 強化学習を使いこなすためのTips (5) 学習のための... 続きを読む

強化学習の基本 Qラーニングを直観的に理解するためのアニメーションによる可視化 - Qiita

2018/03/01 このエントリーをはてなブックマークに追加 53 users Instapaper Pocket Tweet Facebook Share Evernote Clip Space Qiita フィールド マズ 過程

経路探索問題を強化学習で解き、その過程を アニメーションで可視化しました。 ↑↓で速度調節、Spaceで最速の学習、ドラッグ or タップで障害物の追加ができます。 これにより、強化学習で何をしているのか直観的に分かりやすくなりました。 問題設定 本アニメーションで可視化している問題の設定は、下記の通りです。 条件 $n\times n$のマスからなる離散的なフィールド 固定の初期位置と目標位置(... 続きを読む

ディープラーニングのハイパーパラメータ自動調整の概要 - HELLO CYBERNETICS

2018/02/10 このエントリーをはてなブックマークに追加 112 users Instapaper Pocket Tweet Facebook Share Evernote Clip ディープラーニング HELLO CYBERNETICS

2018 - 02 - 10 ディープラーニングのハイパーパラメータ自動調整の概要 Follow @ML_deep SNSでこの記事をシェアする Bookmark! Facebook Twitter Google+ Pocket はじめに ハイパーパラメータ自動調整の概要 学習という関数 グリッドサーチ 関数近似器(ガウス過程)による方法 メタヒューリスティック最適化 強化学習 まとめ ライブラリ... 続きを読む

強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング

2018/01/09 このエントリーをはてなブックマークに追加 89 users Instapaper Pocket Tweet Facebook Share Evernote Clip 近未来 逆転オセロニア トレーディングカードゲーム オセロ

DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、本プロジェクトを推進し研究・開発にAI(人工知能)が、人間の仕事を代替する。 近年、そんなフレーズが各種メディアに登場するようになりました。今後10~20年で、今存在しているさまざまな仕事は自動化されると考えられて... 続きを読む

これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ - Qiita

2017/10/30 このエントリーをはてなブックマークに追加 198 users Instapaper Pocket Tweet Facebook Share Evernote Clip マップ 例題 アルゴリズム 文献 速習

これから強化学習を勉強したい人に向けて、「どんなアルゴリズムがあるのか」、「どの順番で勉強すれば良いのか」を示した強化学習アルゴリズムの「学習マップ」を作成しました。 さらに、各手法を実際にどう実装すれば良いのかを、簡単な例題を対象に実装しました。 本記事では、ひとつずつ解説します。 オレンジ枠の手法は、実装例を紹介します。 ※今回マップを作るにあたっては、以下の文献を参考にしました。 ● 速習 ... 続きを読む

これさえ読めばすぐに理解できる強化学習の導入と実践 - DeepAge

2017/08/11 このエントリーをはてなブックマークに追加 322 users Instapaper Pocket Tweet Facebook Share Evernote Clip DeepAge Atari Q-Learning 進歩 実装

強化学習の位置づけ 教師あり学習 教師なし学習 強化学習 強化学習の応用事例 Atariの攻略 AlphaGo ロボットの自動動作獲得 ファイナンスへの応用 広告配信の最適化 OpenAI Gymを使ってQ-learningを実装してみる 状態 行動 報酬 実装 参考文献 ディープラーニングなどの機械学習技術の進歩によって、過去のデータから学習する技術は大きく進化し、写真の中に写っている対象を認識... 続きを読む

 
(1 - 25 / 38件)