Equilibrio de Exploración y Explotación en LLM utilizando RLLF Suave para Una Mejor Comprensión de la Negación