Bedauernsanalyse des Richtliniengradientenalgorithmus für Markov-Entscheidungsprozesse mit unendlichem Horizont und durchschnittlicher Belohnung