Tiefes Verstärkungslernen durch L-BFGS-Optimierung