はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 強化学習

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 77件)

Unity Learnチュートリアル「ML-Agents:ハチドリ」で強化学習を始めよう|①Flowerクラスの実装

2024/01/21 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip ハチドリ Unity フレームワーク チュートリアル 実装

ML-Agents:ハチドリ Unityには、強化学習を構築するためのフレームワークであるML-Agentsがあります。また、Unityの公式なチュートリアル&コースウェアを提供するUnity Learnにおいて、このML-Agentsのチュートリアルを提供する「ML-Agents:ハチドリ」があります。 「ML-Agents:ハチドリ」は、Humming bird (ハチドリ... 続きを読む

LLM時代の強化学習 - どこから見てもメンダコ

2023/11/24 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip メンダコ VLM LLM LLM時代 課題

強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む

誰でもわかる強化学習

2023/11/24 このエントリーをはてなブックマークに追加 311 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM DQN Deep Q-Network 手法 講義資料

本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt RLHF プラットフォーム セルフホスト 実用

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

応用から学ぶ強化学習

2023/06/06 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip 応用

Go1.20からサポートされるtree構造のerrの紹介と、treeを考慮した複数マッチができるライブラリを作った話/introduction of tree structure err added since go 1_20 続きを読む

強化学習の基礎まとめ - Qiita

2023/05/12 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita deep 手法 Q学習 コード

こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで... 続きを読む

オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI

2023/05/05 このエントリーをはてなブックマークに追加 134 users Instapaper Pocket Tweet Facebook Share Evernote Clip Stable Diffusion チャットボット リリース

Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVic... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解|npaka|note

2023/04/27 このエントリーをはてなブックマークに追加 47 users Instapaper Pocket Tweet Facebook Share Evernote Clip RLHF 文脈 目覚ましい成果 Note フィードバック

以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

大規模言語モデルのための強化学習|npaka|note

2023/04/24 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip npaka|note 言語モデル LLM chatgpt 学習

以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いまし... 続きを読む

強化学習とは?機械学習との違いなどの用語解説や活用事例などをご紹介

2023/03/23 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 機械学習 用語解説 活用事例 アルゴリズム 関数

強化学習とは AIの定義は難しく、さまざまな視点での分類・定義が存在します。ひとつは、事前にプログラムされたアルゴリズムをトレースするのではなく、入力に対して、パターンや特徴を抽出して、特定の値を出力する特殊な関数とする考え方です。この考え方でAIを実現する技術のひとつに機械学習があります。 用語の整... 続きを読む

言語的抽象化で突破するプロンプトコーディング(自然言語強化学習コーディングと高級言語強化学習コーディングの違い)|落合陽一|note

2023/03/21 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip 落合陽一 Note 抽象化 文脈 GPT-4

GPT-4が出てからプロンプトコーディングが楽しい.極意がある.言語である.言語である抽象性を使うことで新規オブジェクト定義も強化学習もそして,説明可能AIの文脈も含めて研究可能なのである. 1. オブジェクトを作成 2. オブジェクトはサブオブジェクトを持つ 3. サブオブジェクトは特定の知識や能力を持つ 4. サブ... 続きを読む

Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita

2023/01/28 このエントリーをはてなブックマークに追加 23 users Instapaper Pocket Tweet Facebook Share Evernote Clip Linux Qiita Mac Unity上 前提

概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います! 前提とする環境 現時点では、以下の環境を想定しております(将来的にはMac/Linuxも対応予定) Unity ... 続きを読む

NVIDIAがロボット開発シミュレータ「Isaac Sim」を大幅アップデート 物流倉庫/製造業/ROS/ルート設定/強化学習など機能アップ - ロボスタ ロボスタ - ロボット情報WEBマガジン

2023/01/05 このエントリーをはてなブックマークに追加 5 users Instapaper Pocket Tweet Facebook Share Evernote Clip NVIDIA トレーニ ロボスタ 物流倉庫 製造業

シェア 0 ツイート 0 はてブ 2 NVIDIAはCES 2023にて、ロボティクスシミュレーションツールであるIsaac Simの大幅なアップデートを発表した。最新バージョンは製造および物流ロボットのユースケースのパフォーマンスと機能の改善に重点を置いている。これにより、開発者や研究者はインテリジェントなロボットのトレーニ... 続きを読む

AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン

2022/08/02 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip 糸口 グリッド ロボスタ アンサンブル学習 深層強化学習

シェア 0 ツイート 0 はてブ 0 株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renew... 続きを読む

1000台超のPS4で強化学習。ソニーのAI「Sophy」は何がすごいのか…グランツーリスモの未来

2022/02/13 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip グランツーリスモ ソフィー ソニー ソニーAI オンライン会見

グランツーリスモでeスポーツトップドライバーと、AIドライバーである「Sophy」が対戦する様子。 オンライン会見を筆者キャプチャー ソニーが開発した「AI」が、プロのeスポーツ・レーサーに勝利した。 その名は「Grand Turismo Sophy(ソフィー、以下Sophy)」。 2020年にソニーが設立したAIの基礎研究機関である「ソニーAI」と... 続きを読む

東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai

2021/09/24 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip サイバーエージェント Ledge.ai 講義資料 東京大学

「Summer School 数理物理」は1987年に第1回目を開催した、これから研究を始めようとしている大学院生や、数理物理の広い分野にわたる(専門外の)研究者を対象にした入門的な講義。主なターゲットは若手研究者や大学院生だが、学部学生や一般社会人を含む幅広い範囲の参加者が集まるという。 \資料公開/ Summer Schoo... 続きを読む

強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか 連載:図でわかる3分間AIキソ講座|ビジネス+IT

2021/01/18 このエントリーをはてなブックマークに追加 5 users Instapaper Pocket Tweet Facebook Share Evernote Clip 3分間AIキソ講座 連載 機械学習モデル 動物 課題解決

Excelの新機能「Custom Data Types」を解説、セルの関連情報をマウス操作で参照可能に 続きを読む

機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか? - GIGAZINE

2020/11/02 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip GIGAZINE ベイズ推定 github.io 一種 報酬

機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspec... 続きを読む

Control as Inference (強化学習とベイズ統計)

2020/08/29 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip ベイズ統計 MDP

Control as Inference (強化学習とベイズ統計) 1. TA Control as Inference 5 2. Control as Inference (POMDP) 3. … 4. … 5. … ??? ??? ??? 6. etc. 7. … 8. ‣ ‣ MDP (POMDP) 9. Control as Inference (POMDP) 10. x1, …, xN ∼ p (X) 11. p (X) θ p (X ∣ θ) p (X = k ∣ θ) = μk θ(1 − μθ)1−k μθ 1 − μθ μθ 12. 1. e.g.,... 続きを読む

【入門】強化学習 - Qiita

2020/05/17 このエントリーをはてなブックマークに追加 20 users Instapaper Pocket Tweet Facebook Share Evernote Clip 将来 学習 主体 ステップ 意思決定

強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: ... 続きを読む

自動運転AI、常識破りの「教師なし学習」による超進化 | 自動運転ラボ

2020/04/30 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 常識破り 教師 自動運転AI 自動運転ラボ 学習

自動運転の実現に欠かすことのできないAI(人工知能)技術。深層学習(ディープラーニング)や強化学習(Reinforcement Learning/RL)などさまざまな学習方法のもと研究開発が進められている。 中には、「教師なし学習」に注目する企業も現れたようだ。この手法を活用することにより、学習にかかるコストや時間を大幅に... 続きを読む

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

2020/01/31 このエントリーをはてなブックマークに追加 162 users Instapaper Pocket Tweet Facebook Share Evernote Clip カテゴライズ 日常 自分 基礎 資料

こんにちは。nino_piraです。 先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある!?」と思い自分が読んだ&好きな資料をまとめてます。 また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていまし... 続きを読む

YouTubeの推薦アルゴリズムの変遷を追う〜深層学習から強化学習まで〜

2019/12/24 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip YouTube 変遷 推薦アルゴリズム 深層学習

はじめにこの記事は「eureka Advent Calendar 2019」24日目の記事です。 こんにちは、Data Analystの @pacocat です! 私はeurekaには2019年11月に入社したばかりなのですが、毎日楽しく仕事させてもらっています。最近はプロダクト開発のための定性調査の仕組みづくりを手伝ったり、事業分析や組織開発をしていたりと、... 続きを読む

強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS

2019/09/22 このエントリーをはてなブックマークに追加 161 users Instapaper Pocket Tweet Facebook Share Evernote Clip 離散化 HELLO CYBERNETICS 評価関数 最後

はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む

第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編) (1/3):AWS DeepRacer入門 - @IT

2019/08/22 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip AWS DeepRacer入門 コンソール みよう 学習

AWS DeepRacer入門:第4回 手を動かして強化学習を体験してみよう(自動運転ロボットカーDeepRacer編) (1/3) 強化学習が初めての人に最適な「AWS DeepRacerのコンソールとシミュレーション環境」を使って、ディープラーニングを体験してみよう。コンソール上で強化学習の各ハイパーパラメーターを設定してモデルに学習... 続きを読む

 
(1 - 25 / 77件)