VisualVoice: Audiovisuelle Sprachtrennung mit modalübergreifender Konsistenz