タグ 評価関数
人気順 5 users 10 users 100 users 500 users 1000 users(1 - 3 / 3件)
強化学習に出てくるベルマン方程式を理解しよう - HELLO CYBERNETICS
はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に はじめに 強化学習の基礎に置かれている「ベルマン方程式」について、言葉は知っているが実はちゃんと理解していないという方は... 続きを読む
今の将棋ソフトはAlphaZeroを超えている件 - コンピュータ将棋 Qhapaq
AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニングと強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。 人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-... 続きを読む
人間の棋譜を用いずに評価関数の学習に成功 | やねうら王 公式サイト
今回、新たに評価関数をゼロベクトルから学習させた。elmo絞りを使うと意外と簡単にApery(WCSC26)相当の棋力を持つ評価関数にまで出来るようだ。追試できるように記事の前半に手順を記しておく。また、記事の後半には何回目のelmo絞りでどの程度の強さであったかも示す。 elmo絞りを知らない人のために簡単に説明すると、今回、将棋ソフトが人間の棋譜を用いずに勝率の高い形を強化学習でソフト自らが自... 続きを読む
(1 - 3 / 3件)