Aprendizaje en juegos con conjuntos de acción continua y funciones de pago desconocidas