Lesen, Schauen oder Hören? Was zum Lösen eines multimodalen Datensatzes benötigt wird