Estimación del Valor Óptimo de la Política en Bandidos Contextuales Lineales Generales