Einfache und optimale Methoden für stochastische Variationsungleichheiten, II: Markovianisches Rauschen und Politikevaluation beim verstärkenden Lernen