はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 強化学習

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 70件)

強化学習未経験者がテトリスの AI を作ってみた話

2024/05/01 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip テトリス 過程 特定 概要 ライン

はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの... 続きを読む

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip メンダコ VLM LLM LLM時代 課題

強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 このエントリーをはてなブックマークに追加 311 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM DQN Deep Q-Network 手法 講義資料

本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt RLHF プラットフォーム セルフホスト 実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

強化学習の基礎まとめ - Qiita

2023/05/12 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita deep 手法 Q学習 コード

こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 このエントリーをはてなブックマークに追加 134 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stable Diffusion チャットボット リリース

Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVic... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解|npaka|note

2023/04/27 このエントリーをはてなブックマークに追加 47 users Instapaper Pocket Tweet Facebook Share Evernote Clip RLHF 文脈 目覚ましい成果 Note フィードバック

以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

強化学習とは?機械学習との違いなどの用語解説や活用事例などをご紹介

2023/03/23 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 機械学習 用語解説 活用事例 アルゴリズム 関数

強化学習とは AIの定義は難しく、さまざまな視点での分類・定義が存在します。ひとつは、事前にプログラムされたアルゴリズムをトレースするのではなく、入力に対して、パターンや特徴を抽出して、特定の値を出力する特殊な関数とする考え方です。この考え方でAIを実現する技術のひとつに機械学習があります。 用語の整... 続きを読む

Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita

2023/01/28 このエントリーをはてなブックマークに追加 23 users Instapaper Pocket Tweet Facebook Share Evernote Clip Linux Qiita Mac Unity上 前提

概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います! 前提とする環境 現時点では、以下の環境を想定しております(将来的にはMac/Linuxも対応予定) Unity ... 続きを読む

AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン

2022/08/02 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip 糸口 グリッド ロボスタ アンサンブル学習 深層強化学習

シェア 0 ツイート 0 はてブ 0 株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renew... 続きを読む

1000台超のPS4で強化学習。ソニーのAI「Sophy」は何がすごいのか…グランツーリスモの未来

2022/02/13 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip グランツーリスモ ソフィー ソニー ソニーAI オンライン会見

グランツーリスモでeスポーツトップドライバーと、AIドライバーである「Sophy」が対戦する様子。 オンライン会見を筆者キャプチャー ソニーが開発した「AI」が、プロのeスポーツ・レーサーに勝利した。 その名は「Grand Turismo Sophy(ソフィー、以下Sophy)」。 2020年にソニーが設立したAIの基礎研究機関である「ソニーAI」と... 続きを読む

東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

2021/09/24 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip サイバーエージェント Ledge.ai 講義資料 東京大学

「Summer School 数理物理」は1987年に第1回目を開催した、これから研究を始めようとしている大学院生や、数理物理の広い分野にわたる(専門外の)研究者を対象にした入門的な講義。主なターゲットは若手研究者や大学院生だが、学部学生や一般社会人を含む幅広い範囲の参加者が集まるという。 \資料公開/ Summer Schoo... 続きを読む

Control as Inference (強化学習とベイズ統計)

2020/08/29 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip ベイズ統計 MDP

Control as Inference (強化学習とベイズ統計) 1. TA Control as Inference 5 2. Control as Inference (POMDP) 3. … 4. … 5. … ??? ??? ??? 6. etc. 7. … 8. ‣ ‣ MDP (POMDP) 9. Control as Inference (POMDP) 10. x1, …, xN ∼ p (X) 11. p (X) θ p (X ∣ θ) p (X = k ∣ θ) = μk θ(1 − μθ)1−k μθ 1 − μθ μθ 12. 1. e.g.,... 続きを読む

【入門】強化学習 - Qiita

2020/05/17 このエントリーをはてなブックマークに追加 20 users Instapaper Pocket Tweet Facebook Share Evernote Clip 将来 学習 主体 ステップ 意思決定

強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: ... 続きを読む

自動運転AI、常識破りの「教師なし学習」による超進化 | 自動運転ラボ

2020/04/30 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 常識破り 教師 自動運転AI 自動運転ラボ 学習

自動運転の実現に欠かすことのできないAI(人工知能)技術。深層学習(ディープラーニング)や強化学習(Reinforcement Learning/RL)などさまざまな学習方法のもと研究開発が進められている。 中には、「教師なし学習」に注目する企業も現れたようだ。この手法を活用することにより、学習にかかるコストや時間を大幅に... 続きを読む

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

2020/01/31 このエントリーをはてなブックマークに追加 162 users Instapaper Pocket Tweet Facebook Share Evernote Clip カテゴライズ 日常 自分 基礎 資料

こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていまし... 続きを読む

YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜

2019/12/24 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip YouTube 変遷 推薦アルゴリズム 深層学習

はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。 こんにちは、Data Analystの @pacocat です! 私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、... 続きを読む

強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

2019/09/22 このエントリーをはてなブックマークに追加 161 users Instapaper Pocket Tweet Facebook Share Evernote Clip 離散化 HELLO CYBERNETICS 評価関数 最後

はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む

第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編) (1/3):AWS DeepRacer入門 - @IT

2019/08/22 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip AWS DeepRacer入門 コンソール みよう 学習

AWS DeepRacer入門:第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編) (1/3) 強化学習が初めての人に最適な「AWS DeepRacerのコンソールとシミュレーション環境」を使って、ディープラーニングを体験してみよう。コンソール上で強化学習の各ハイパーパラメーターを設定してモデルに学習... 続きを読む

「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) - ITmedia NEWS

2019/08/06 このエントリーをはてなブックマークに追加 189 users Instapaper Pocket Tweet Facebook Share Evernote Clip 生みの親 オセロAI 裏話 AVILEN ブラウザゲーム

「わざと負けようとしても無理」と話題 プロも挑戦する“世界最弱のオセロAI”、生みの親に聞く開発の裏話 (1/2) AIベンチャーのAVILENが、強化学習を使ってAIを極限まで弱くしたブラウザゲーム「最弱オセロ」をリリース。AIが対局中に「あえて角を取らない」「石を少なく取る」といった行動を取り続けるため、人間は負け... 続きを読む

第2回 AIの強化学習の基礎を学ぼう:AWS DeepRacer入門 - @IT

2019/07/21 このエントリーをはてなブックマークに追加 30 users Instapaper Pocket Tweet Facebook Share Evernote Clip AWS DeepRacer入門 ミニカー 基礎 ティーブ 視点

AI・機械学習における「強化学習」の基礎知識と基本用語を、AWS DeepRacerの視点で解説。強化学習で特に重要な「報酬関数」については、重点的に説明する。 連載目次 AWS DeepRacerは、自律走行を行うミニカーである(前回詳しく説明した)。その走行エンジンにAI(人工知能)の機械学習モデル(より厳密には、ディープ... 続きを読む

第1回 強化学習が楽しく学べる自律走行レーシングカー「AWS DeepRacer」とは?:AWS DeepRacer入門 - @IT

2019/07/08 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip AWS DeepRacer DeepRacer 自律走行

連載目次 AWS DeepRacerを知っているだろうか? カンファレンス「AWS re:Invent 2018」(2018年11月25日開催)の基調講演で発表されてから注目を集め(動画1)、2019年5月23日開催の「AWS Summit Tokyo 2019」で日本でもお披露目された。 DeepRacerは、自律走行を行うレーシングカーで、その走行エンジンに機械学習モデ... 続きを読む

GoogleがサッカーゲームAIを研究中。強化学習でAIはどこまでうまくなれるか? | AUTOMATON

2019/06/13 このエントリーをはてなブックマークに追加 36 users Instapaper Pocket Tweet Facebook Share Evernote Clip Git AUTOMATON ベータ版 AI同士 テスト

GoogleのAI研究チームは6月7日、サッカーゲームをプレイするAIについての研究内容をブログにて公表した。AI同士をサッカーシミュレーションゲーム上で対戦させ、AIのテストを行っているようだ。また、AIのテスト環境や学習環境などが含まれる「Google Research Football Environment」のベータ版を、オープンソースでGit... 続きを読む

超丁寧な日本語資料で強化学習とDeepRacerを一挙に体験するワークショップに参加してきた! #AWSSummit | DevelopersIO

2019/06/12 このエントリーをはてなブックマークに追加 46 users Instapaper Pocket Tweet Facebook Share Evernote Clip awssummit DevelopersIO 日本語資料

続きを読む

文系でも分かる「機械学習」のススメ 教師あり/なし、強化学習を解説 (1/3) - ITmedia NEWS

2019/05/22 このエントリーをはてなブックマークに追加 74 users Instapaper Pocket Tweet Facebook Share Evernote Clip 限界 ビジネス 教師あり学習 文系 言葉

最近よく耳にするようになった「機械学習」という言葉。ビジネスで活用するには機械学習でできることとその限界を理解しておく必要があるだろう。 前回記事では、機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類が存在することを解説した。今回はこの3つについて、もう少し詳しく整理して... 続きを読む

 
(1 - 25 / 70件)