Sign in

Zur Konvergenz von politikiterationsbasiertem Verstärkungslernen mit Monte-Carlo-Politikevaluierung

By Anna Winnicki and Ramakrishnan Srikant
Eine gängige Technik beim verstärkenden Lernen besteht darin, die Wertfunktion aus Monte-Carlo-Simulationen einer bestimmten Richtlinie zu bewerten und die Schätzwertfunktion zu verwenden, um eine neue Richtlinie zu erhalten, die in Bezug auf die Schätzwertfunktion gierig ist. Ein bekanntes, seit langem offenes Problem in diesem Zusammenhang besteht darin, die Konvergenz eines... Show more
February 28, 2023
=
0
Loading PDF…
Loading full text...
Similar articles
Loading recommendations...
=
0
x1
On The Convergence Of Policy Iteration-Based Reinforcement Learning With Monte Carlo Policy Evaluation
Click on play to start listening