Una novedosa red de fusión dinámica multimodal para la detección de disfluencias en expresiones habladas