Un enfoque profundo de aprendizaje por refuerzo inverso para modelar la elección de rutas con recompensas dependientes del contexto