タグ 強化学習
人気順 10 users 50 users 100 users 500 users 1000 users将棋AIの強化学習の基礎が根底から変わりそうな件 | やねうら王 公式サイト
将棋AIでは、教師(教師局面)を生成して、そこから評価関数パラメーターの学習を行っている。AlphaZeroなんかもそうしている。 教師は、実際に対局して生成する。ところが、この対局は、1手指すごとに何千とか何万とかの局面を探索しないといけない。Deep Learning(以下DLと略す)系の将棋AIの場合、何千とか何万の局面を... 続きを読む
「AI、このタスクお願いね」が現実に? 生成AIの発展系「AIエージェント」でできること
「ChatGPT」の登場から約1年半がたち、企業では生成AIの導入や活用が広がっている。業務課題の解決策や新規ビジネスに挑戦する足掛かりなど、さまざまな業界や用途で熱い視線が注がれている。 そうした中、ChatGPTの“次”として注目を集めるのが「AIエージェント」だ。生成AIや強化学習が専門の今井翔太氏(元・東京大学... 続きを読む
変化の早い時代をエンジニアとしてサバイブする「人間力」を身につけるには 「AIを知る」「意思決定という強化学習を繰り返す」「“逆張り力”を鍛える」
AIは逆張りがあまり得意ではない 佐地良太氏(以下、佐地):まだお話ししたいところではあるんですが、最後のテーマで、その人間力ってどうやって見つけられるのかというところですね。 今井さんに「人間力ってそもそも」みたいなところも絡めてお話しいただいたと思いますが、みなさんが考える「人間力って何?」みた... 続きを読む
強化学習未経験者がテトリスの AI を作ってみた話
はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの... 続きを読む
Unity Learnチュートリアル「ML-Agents:ハチドリ」で強化学習を始めよう|①Flowerクラスの実装
ML-Agents:ハチドリ Unityには、強化学習を構築するためのフレームワークであるML-Agentsがあります。また、Unityの公式なチュートリアル&コースウェアを提供するUnity Learnにおいて、このML-Agentsのチュートリアルを提供する「ML-Agents:ハチドリ」があります。 「ML-Agents:ハチドリ」は、Humming bird (ハチドリ... 続きを読む
LLM時代の強化学習 - どこから見てもメンダコ
強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識... 続きを読む
誰でもわかる強化学習
本資料は,東京大学松尾研究室で開催された強化学習セミナーの講義資料をもとに,講演目的でより初学者向けに内容を調整したものです.特に強化学習で最も基本的かつ最重要手法であるQ学習や,それの深層強化学習版のDQN(Deep Q-Network)を中心に解説しています. 昨今,ChatGPT等の大規模言語モデル(LLM)の開発に強... 続きを読む
ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利
RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む
応用から学ぶ強化学習
Go1.20からサポートされるtree構造のerrの紹介と、treeを考慮した複数マッチができるライブラリを作った話/introduction of tree structure err added since go 1_20 続きを読む
強化学習の基礎まとめ - Qiita
こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで... 続きを読む
オープンソースのチャットAI「StableVicuna」がリリース。「Stable Diffusion」の開発元が提供する、人間のフィードバックに基づく強化学習でチューニングしたAI
Stability AIが、オープンソースのチャットボット 「StableVicuna」を発表 オンラインで「StableVicuna」との会話を試すことが可能 チャットボットインターフェースが近日公開予定 Stability AIは、現地時間2023年4月28日(金)にオープンソースのチャットボット「StableVicuna」 を発表しました。 Announcing StableVic... 続きを読む
RLHF (人間のフィードバックからの強化学習) の図解|npaka|note
以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む
大規模言語モデルのための強化学習|npaka|note
以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いまし... 続きを読む
強化学習とは?機械学習との違いなどの用語解説や活用事例などをご紹介
強化学習とは AIの定義は難しく、さまざまな視点での分類・定義が存在します。ひとつは、事前にプログラムされたアルゴリズムをトレースするのではなく、入力に対して、パターンや特徴を抽出して、特定の値を出力する特殊な関数とする考え方です。この考え方でAIを実現する技術のひとつに機械学習があります。 用語の整... 続きを読む
言語的抽象化で突破するプロンプトコーディング(自然言語強化学習コーディングと高級言語強化学習コーディングの違い)|落合陽一|note
GPT-4が出てからプロンプトコーディングが楽しい.極意がある.言語である.言語である抽象性を使うことで新規オブジェクト定義も強化学習もそして,説明可能AIの文脈も含めて研究可能なのである. 1. オブジェクトを作成 2. オブジェクトはサブオブジェクトを持つ 3. サブオブジェクトは特定の知識や能力を持つ 4. サブ... 続きを読む
Unity + Python + 箱庭でロボットを強化学習させてみよう! - Qiita
概要 TOPPERS/箱庭では、様々なロボットがありますが、これらのロボットを強化学習できる環境を準備しました。 Python使って、Unity上のロボットの強化学習で試してみたいと思われる方にはお役に立てる環境と思います! 前提とする環境 現時点では、以下の環境を想定しております(将来的にはMac/Linuxも対応予定) Unity ... 続きを読む
NVIDIAがロボット開発シミュレータ「Isaac Sim」を大幅アップデート 物流倉庫/製造業/ROS/ルート設定/強化学習など機能アップ - ロボスタ ロボスタ - ロボット情報WEBマガジン
シェア 0 ツイート 0 はてブ 2 NVIDIAはCES 2023にて、ロボティクスシミュレーションツールであるIsaac Simの大幅なアップデートを発表した。最新バージョンは製造および物流ロボットのユースケースのパフォーマンスと機能の改善に重点を置いている。これにより、開発者や研究者はインテリジェントなロボットのトレーニ... 続きを読む
AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載 - ロボスタ ロボスタ - ロボット情報WEBマガジン
シェア 0 ツイート 0 はてブ 0 株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renew... 続きを読む
1000台超のPS4で強化学習。ソニーのAI「Sophy」は何がすごいのか…グランツーリスモの未来
グランツーリスモでeスポーツトップドライバーと、AIドライバーである「Sophy」が対戦する様子。 オンライン会見を筆者キャプチャー ソニーが開発した「AI」が、プロのeスポーツ・レーサーに勝利した。 その名は「Grand Turismo Sophy(ソフィー、以下Sophy)」。 2020年にソニーが設立したAIの基礎研究機関である「ソニーAI」と... 続きを読む
東京大学、強化学習と統計的自然言語処理の講義資料が無料公開 サイバーエージェントの講師ら担当 | Ledge.ai
「Summer School 数理物理」は1987年に第1回目を開催した、これから研究を始めようとしている大学院生や、数理物理の広い分野にわたる(専門外の)研究者を対象にした入門的な講義。主なターゲットは若手研究者や大学院生だが、学部学生や一般社会人を含む幅広い範囲の参加者が集まるという。 \資料公開/ Summer Schoo... 続きを読む
強化学習とは何か?「動物そっくり」の機械学習モデルはどんな課題解決に役立つのか 連載:図でわかる3分間AIキソ講座|ビジネス+IT
Excelの新機能「Custom Data Types」を解説、セルの関連情報をマウス操作で参照可能に 続きを読む
機械学習の「Q学習」にベイズ推定を取り入れると一体何が起こるのか? - GIGAZINE
機械学習における強化学習の一種である「Q学習」は、行動主体となるエージェントが現在の状況と未来の状況、そして得られる報酬から最適な答えを学習する手法です。そんなQ学習にベイズ推定の要素を取り込む研究が機械学習エンジニアのBrandon Da Silva氏によって行われています。 brandinho.github.io/bayesian-perspec... 続きを読む
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計) 1. TA Control as Inference 5 2. Control as Inference (POMDP) 3. … 4. … 5. … ??? ??? ??? 6. etc. 7. … 8. ‣ ‣ MDP (POMDP) 9. Control as Inference (POMDP) 10. x1, …, xN ∼ p (X) 11. p (X) θ p (X ∣ θ) p (X = k ∣ θ) = μk θ(1 − μθ)1−k μθ 1 − μθ μθ 12. 1. e.g.,... 続きを読む
【入門】強化学習 - Qiita
強化学習では何をしていくかというと、 「将来の価値を最大化するような行動を学習」 していきます。 強化学習のモデル 強化学習の基本的な仕組みは次のようになっています。 以下の$t$は任意のステップを示します エージェント(意思決定者): 意思決定と学習を行う主体 環境: エージェントが相互作用を行う対象 状態: ... 続きを読む
自動運転AI、常識破りの「教師なし学習」による超進化 | 自動運転ラボ
自動運転の実現に欠かすことのできないAI(人工知能)技術。深層学習(ディープラーニング)や強化学習(Reinforcement Learning/RL)などさまざまな学習方法のもと研究開発が進められている。 中には、「教師なし学習」に注目する企業も現れたようだ。この手法を活用することにより、学習にかかるコストや時間を大幅に... 続きを読む