Eine Maßnahme zum transparenten Vergleich der sprachlichen Vielfalt in mehrsprachigen NLP-Datensätzen