Physisch geerdete Vision-Sprachmodelle für Robotermanipulation