En RL sin Recompensa con Aproximaciones de Funciones Neuronales y Kernel: MDP de Agente Único y Juego de Markov