タグ「強化学習」 - はてブログ

タグ強化学習

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 77件)

Unity Learnチュートリアル「ML-Agents：ハチドリ」で強化学習を始めよう｜①Flowerクラスの実装

2024/01/21 8 users ハチドリ Unity フレームワークチュートリアル実装

ML-Agents：ハチドリ Unityには、強化学習を構築するためのフレームワークであるML-Agentsがあります。また、Unityの公式なチュートリアル&コースウェアを提供するUnity Learnにおいて、このML-Agentsのチュートリアルを提供する「ML-Agents：ハチドリ」があります。「ML-Agents：ハチドリ」は、Humming bird (ハチドリ... 続きを読む

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 104 users メンダコ VLM LLM LLM時代課題

強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 311 users LLM DQN Deep Q-Network 手法講義資料

本資料は，東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに，講演目的でより初学者向けに内容を調整したものです．特に強化学習で最も基本的かつ最重要手法であるQ学習や，それの深層強化学習版のDQN（Deep Q-Network）を中心に解説しています. 昨今，ChatGPT等の大規模言語モデル（LLM）の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 104 users chatgpt RLHF プラットフォームセルフホスト実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

応用から学ぶ強化学習

2023/06/06 7 users 応用

Go1.20からサポートされるtree構造のerrの紹介と、treeを考慮した複数マッチができるライブラリを作った話/introduction of tree structure err added since go 1_20 続きを読む

強化学習の基礎まとめ - Qiita

2023/05/12 13 users Qiita deep 手法 Q学習コード

こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 134 users Stable Diffusion チャットボットリリース

Stability AIが、オープンソースのチャットボット「StableVicuna」を発表オンラインで「StableVicuna」との会話を試すことが可能チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日（金）にオープンソースのチャットボット「StableVicuna」を発表しました。 Announcing StableVic... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解｜npaka｜note

2023/04/27 47 users RLHF 文脈目覚ましい成果 Note フィードバック

以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

大規模言語モデルのための強化学習｜npaka｜note

2023/04/24 9 users npaka｜note 言語モデル LLM chatgpt 学習

以下の記事が面白かったので、軽く要約しました。・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いまし... 続きを読む

強化学習とは？機械学習との違いなどの用語解説や活用事例などをご紹介

2023/03/23 13 users 機械学習用語解説活用事例アルゴリズム関数

強化学習とは AIの定義は難しく、さまざまな視点での分類・定義が存在します。ひとつは、事前にプログラムされたアルゴリズムをトレースするのではなく、入力に対して、パターンや特徴を抽出して、特定の値を出力する特殊な関数とする考え方です。この考え方でAIを実現する技術のひとつに機械学習があります。用語の整... 続きを読む

言語的抽象化で突破するプロンプトコーディング（自然言語強化学習コーディングと高級言語強化学習コーディングの違い）｜落合陽一｜note

2023/03/21 7 users 落合陽一 Note 抽象化文脈 GPT-4

GPT-4が出てからプロンプトコーディングが楽しい．極意がある．言語である．言語である抽象性を使うことで新規オブジェクト定義も強化学習もそして，説明可能AIの文脈も含めて研究可能なのである． 1. オブジェクトを作成 2. オブジェクトはサブオブジェクトを持つ 3. サブオブジェクトは特定の知識や能力を持つ 4. サブ... 続きを読む

Unity + Python + 箱庭でロボットを強化学習させてみよう！ - Qiita

2023/01/28 23 users Linux Qiita Mac Unity上前提

概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います！前提とする環境現時点では、以下の環境を想定しております(将来的にはMac/Linuxも対応予定) Unity ... 続きを読む

NVIDIAがロボット開発シミュレータ「Isaac Sim」を大幅アップデート物流倉庫/製造業/ROS/ルート設定/強化学習など機能アップ - ロボスタロボスタ - ロボット情報WEBマガジン

2023/01/05 5 users NVIDIA トレーニロボスタ物流倉庫製造業

シェア 0 ツイート 0 はてブ 2 NVIDIAはCES 2023にて、ロボティクスシミュレーションツールであるIsaac Simの大幅なアップデートを発表した。最新バージョンは製造および物流ロボットのユースケースのパフォーマンスと機能の改善に重点を置いている。これにより、開発者や研究者はインテリジェントなロボットのトレーニ... 続きを読む

AI最大の課題「フレーム問題」解決の糸口をグリッドが開発！強化学習とアンサンブル学習を連携米国物理学協会発刊学術誌が掲載 - ロボスタロボスタ - ロボット情報WEBマガジン

2022/08/02 14 users 糸口グリッドロボスタアンサンブル学習深層強化学習

シェア 0 ツイート 0 はてブ 0 株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renew... 続きを読む

1000台超のPS4で強化学習。ソニーのAI｢Sophy｣は何がすごいのか…グランツーリスモの未来

2022/02/13 13 users グランツーリスモソフィーソニーソニーAI オンライン会見

グランツーリスモでeスポーツトップドライバーと、AIドライバーである｢Sophy｣が対戦する様子。オンライン会見を筆者キャプチャーソニーが開発した｢AI｣が、プロのeスポーツ・レーサーに勝利した。その名は｢Grand Turismo Sophy（ソフィー、以下Sophy）｣。 2020年にソニーが設立したAIの基礎研究機関である｢ソニーAI｣と... 続きを読む

東京大学、強化学習と統計的自然言語処理の講義資料が無料公開サイバーエージェントの講師ら担当 | Ledge.ai

2021/09/24 16 users サイバーエージェント Ledge.ai 講義資料東京大学

「Summer School 数理物理」は1987年に第1回目を開催した、これから研究を始めようとしている大学院生や、数理物理の広い分野にわたる（専門外の）研究者を対象にした入門的な講義。主なターゲットは若手研究者や大学院生だが、学部学生や一般社会人を含む幅広い範囲の参加者が集まるという。＼資料公開／ Summer Schoo... 続きを読む

強化学習とは何か？「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか連載：図でわかる3分間AIキソ講座｜ビジネス+IT

2021/01/18 5 users 3分間AIキソ講座連載機械学習モデル動物課題解決

Excelの新機能「Custom Data Types」を解説、セルの関連情報をマウス操作で参照可能に続きを読む

機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか？ - GIGAZINE

2020/11/02 7 users GIGAZINE ベイズ推定 github.io 一種報酬

機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspec... 続きを読む

Control as Inference (強化学習とベイズ統計)

2020/08/29 14 users ベイズ統計ＭＤＰ

Control as Inference (強化学習とベイズ統計) 1. TA Control as Inference 5 2. Control as Inference (POMDP) 3. … 4. … 5. … ??? ??? ??? 6. etc. 7. … 8. ‣ ‣ MDP (POMDP) 9. Control as Inference (POMDP) 10. x1, …, xN ∼ p (X) 11. p (X) θ p (X ∣ θ) p (X = k ∣ θ) = μk θ(1 − μθ)1−k μθ 1 − μθ μθ 12. 1. e.g.,... 続きを読む

(1 - 25 / 77件)

次の25件 »