Lernen von Beobachtungsmodellen mit inkrementellen nicht differenzierbaren Graphenoptimierern in der Schleife für die Robotikzustandsschätzung