Fusion von Einbettungsnetzwerken zur robusten Kombination von textabhängiger und unabhängiger Sprechererkennung