Gesichtsmarkierungsbasierte sprecherunabhängige audiovisuelle Sprachverbesserung in Umgebungen mit mehreren Sprechern