Modelado multimodal de pronunciación neuronal para lenguas habladas con origen logográfico