Aprovechar el Conocimiento Previo en el Aprendizaje por Refuerzo a través de Límites de Doble Cara en la Función de Valor