Offline-Verstärkungslernen mit unausgewogenen Datensätzen