Ein automatischer Bewertungsrahmen für medizinische Multiturn-Konsultationen Fähigkeiten großer Sprachmodelle