Monte-Carlo-Nutzwertschätzungen für Bayes'sches Verstärkungslernen