Comprensión de la Escena Audiovisual y del Habla basada en la transferencia de Estilos para la Adquisición de Secuencias de Acción de Robots a partir de Videos