Mehrkörniges crossmodales Alignment zum Erlernen der semantischen Segmentierung mit offenem Vokabular aus der Textüberwachung