Modelos de IA Aprenden Generando y Resolviendo Sus Propios Problemas de Codificación
Puntos clave
- Absolute Zero Reasoner permite que los modelos de IA creen y resuelvan sus propios desafíos de codificación en Python.
- El sistema utiliza la retroalimentación de ejecución para refinar tanto la capacidad de plantear problemas como la de resolverlos.
- Los modelos de código abierto con 7 mil millones y 14 mil millones de parámetros mostraron mejoras significativas en el rendimiento.
- El enfoque refleja el aprendizaje humano al moverse de la imitación a la indagación auto generada.
- El trabajo futuro apunta a aplicar el aprendizaje de autojuego a tareas más amplias más allá de los problemas fácilmente verificables.
Investigadores de la Universidad Tsinghua, el Instituto de Inteligencia Artificial General de Beijing y la Universidad Estatal de Pensilvania han creado un sistema que permite a los grandes modelos de lenguaje plantear desafíos de codificación en Python para sí mismos, resolverlos y utilizar los resultados para mejorar. El enfoque, llamado Absolute Zero Reasoner, mostró mejoras notables en las habilidades de codificación y razonamiento para modelos de código abierto y sugiere un nuevo camino hacia un aprendizaje de IA más autónomo.
Nuevo Marco de Aprendizaje de Autojuego
Un equipo colaborativo de la Universidad Tsinghua, el Instituto de Inteligencia Artificial General de Beijing (BIGAI) y la Universidad Estatal de Pensilvania presentó un sistema llamado Absolute Zero Reasoner (AZR). El sistema utiliza un gran modelo de lenguaje para generar tareas de codificación en Python solubles pero desafiantes, luego utiliza el mismo modelo para intentar soluciones y finalmente verifica el código ejecutándolo. Los éxitos y fracasos se retroalimentan en el modelo, refinando su capacidad para crear mejores problemas y resolverlos.
Mejoras en el Rendimiento
Al probar el método en modelos de lenguaje de código abierto Qwen con 7 mil millones y 14 mil millones de parámetros, se revelaron mejoras significativas en el rendimiento de codificación y razonamiento. En algunos casos, los modelos refinados superaron a modelos más grandes que habían sido entrenados con datos curados por humanos.
Aprendizaje Similar al Humano
Los investigadores comparan el proceso con la forma en que los humanos van más allá de la imitación, primero copiando a los maestros y luego formulando sus propias preguntas para superar la instrucción previa. Este concepto de autojuego tiene raíces en trabajos anteriores de pioneros de la IA y se alinea con los esfuerzos recientes en otras instituciones para utilizar tareas auto generadas para mejorar los modelos.
Direcciones Futuras
Si bien actualmente se limita a problemas con verificación automática clara, como la codificación o las matemáticas, el equipo vislumbra ampliar el enfoque a tareas más amplias como la navegación web o la automatización de oficina. Una expansión exitosa podría acercar a los sistemas de IA a capacidades de aprendizaje autónomo que requieren menos datos proporcionados por humanos.