Evaluierung der Evaluatoren: Sind die aktuellen Lernbenchmarks mit wenigen Schüssen für den Zweck geeignet?