Richtlinienoptimierung mit bestrafter Punktwahrscheinlichkeitsentfernung: Eine Alternative zur proximalen Richtlinienoptimierung