Aprendizaje Profundo por Refuerzo en un Puñado de Ensayos que utilizan Modelos de Dinámica Probabilística