Los grandes modelos de lenguaje fallan en Sudoku y razonamiento transparente, muestra un estudio

Puntos clave
- Investigadores de la Universidad de Colorado probaron grandes modelos de lenguaje en puzzles de Sudoku.
- Los modelos tuvieron dificultades con puzzles de 6x6 y 9x9, a menudo utilizando prueba y error.
- Las explicaciones proporcionadas por los modelos fueron frecuentemente inexactas o irrelevantes.
- Un modelo respondió a una consulta de razonamiento con un pronóstico del clima para Denver.
- Los hallazgos plantean preocupaciones sobre el uso de la inteligencia artificial en áreas de alto riesgo como la conducción y la preparación de impuestos.
- Una demanda de Ziff Davis contra OpenAI sobre datos de entrenamiento se menciona en el estudio.
Investigadores de la Universidad de Colorado en Boulder probaron modelos de lenguaje populares, incluyendo ChatGPT de OpenAI y sus variantes de razonamiento, en puzzles de Sudoku y su capacidad para explicar soluciones. Los modelos tuvieron dificultades con puzzles de 6x6 y 9x9, a menudo recurriendo a prueba y error y produciendo explicaciones inexactas.
Antecedentes y configuración de la prueba
Científicos de la Universidad de Colorado en Boulder examinaron cómo los grandes modelos de lenguaje manejan puzzles lógicos y autoexplicaciones. Se centraron en Sudoku, probando tanto la versión standard de 9x9 como una versión más simple de 6x6. Los modelos evaluados incluyeron ChatGPT de OpenAI y sus nuevos modelos de razonamiento como o1-preview y o4.
Rendimiento en puzzles de Sudoku
Los modelos frecuentemente fallaron en resolver los puzzles directamente. Cuando produjeron una respuesta, a menudo requirieron múltiples intentos, pareciendo prueba y error más que deducción lógica sistemática. Para los puzzles de 6x6, los modelos lucharon sin herramientas externas, y incluso los desafíos de 9x9 resultaron difíciles.
Calidad de las explicaciones
Más allá de resolver los puzzles, los investigadores pidieron a los modelos que explicaran cada paso. Las explicaciones fueron a menudo inexactas, irrelevantes o completamente no relacionadas. En un caso, un modelo respondió a una pregunta de seguimiento con un pronóstico del clima para Denver en lugar de una justificación lógica. El estudio destacó que los modelos tienden a generar explicaciones que suenan plausibles pero carecen de fidelidad al proceso de razonamiento real.
Implicaciones para el uso en el mundo real
Estas deficiencias son preocupantes ya que los sistemas de inteligencia artificial se están posicionando para tareas como la conducción autónoma, la preparación de impuestos, la formulación de estrategias comerciales y la traducción de documentos. La incapacidad para proporcionar razonamiento transparente y confiable podría socavar la confianza y la seguridad en estas aplicaciones.
Contexto legal y ético
La investigación también hace referencia a una demanda presentada por Ziff Davis contra OpenAI, alegando que la empresa utilizó material con derechos de autor para entrenar su inteligencia artificial. Este disputa legal agrega otra capa de escrutinio al desarrollo y despliegue de grandes modelos de lenguaje.
Conclusión
El estudio subraya la brecha entre la generación impresionante de lenguaje y la capacidad real de resolución de problemas lógicos. Llama a una mayor transparencia y rigor en el razonamiento de la inteligencia artificial, especialmente a medida que la tecnología se mueve hacia dominios donde las explicaciones precisas son esenciales.