Aprendizaje Reforzado sin conexión a Internet a través de Repetición Equilibrada y Q-Ensemble Pesimista