Verteilungsrobustes modellbasiertes Verstärkungslernen mit großen Zustandsräumen