Sprachmodelle können sehen: Visuelle Steuerelemente in die Textgenerierung einbinden