PPO-ABR: Aprendizaje Profundo de Refuerzo basado en Optimización de Políticas Proximales para transmisión de velocidad de bits adaptativa