El Modelo Multimodal de Lenguaje Grande es un Anotador Alineado con Humanos para la Generación de Texto a Imagen