Skalierung autoregressiver multimodaler Modelle: Vortraining und Anweisungstuning