Modelos de IA Aprendem Gerando e Resolvendo Seus Próprios Problemas de Codificação
Pontos principais
- O Absolute Zero Reasoner permite que modelos de IA criem e resolvam seus próprios desafios de codificação em Python.
- O sistema usa feedback de execução para refinar tanto as habilidades de criação de problemas quanto as de resolução de problemas.
- Modelos de código aberto com 7 bilhões e 14 bilhões de parâmetros mostraram ganhos de desempenho marcantes.
- A abordagem espelha o aprendizado humano, movendo-se da imitação para a investigação auto-gerada.
- Trabalhos futuros visam aplicar o aprendizado de autojogo a tarefas mais amplas, além de problemas facilmente verificáveis.
Pesquisadores da Universidade Tsinghua, do Instituto de Inteligência Artificial Geral de Pequim e da Universidade Estadual da Pensilvânia criaram um sistema que permite que grandes modelos de linguagem criem desafios de codificação em Python para si mesmos, os resolvam e usem os resultados para melhorar. A abordagem, chamada de Absolute Zero Reasoner, mostrou ganhos notáveis nas habilidades de codificação e raciocínio para modelos de código aberto e sugere um novo caminho para um aprendizado de IA mais autônomo.
Nova Estrutura de Aprendizado de Autojogo
Uma equipe colaborativa da Universidade Tsinghua, do Instituto de Inteligência Artificial Geral de Pequim (BIGAI) e da Universidade Estadual da Pensilvânia introduziu um sistema chamado Absolute Zero Reasoner (AZR). O sistema utiliza um grande modelo de linguagem para primeiro gerar tarefas de codificação em Python solúveis, mas desafiadoras, então usa o mesmo modelo para tentar soluções e, finalmente, verifica o código executando-o. Sucessos e falhas são feedback para o modelo, refinando sua capacidade de criar melhores problemas e resolvê-los.
Ganhos de Desempenho
Testar o método em modelos de linguagem de código aberto Qwen com 7 bilhões e 14 bilhões de parâmetros revelou melhorias significativas no desempenho de codificação e raciocínio. Em alguns casos, os modelos refinados superaram modelos maiores que haviam sido treinados com dados curados por humanos.
Aprendizado Semelhante ao Humano
Os pesquisadores comparam o processo à forma como os humanos vão além da imitação, primeiro copiando professores e então formulando suas próprias perguntas para superar a instrução anterior. Esse conceito de autojogo tem raízes em trabalhos anteriores de pioneiros da IA e alinha-se com esforços recentes em outras instituições para usar tarefas auto-geradas para melhoria de modelos.
Direções Futuras
Embora atualmente limitado a problemas com verificação automática clara, como codificação ou matemática, a equipe vislumbra estender a abordagem para tarefas mais amplas, como navegação na web ou automação de escritório. Uma expansão bem-sucedida poderia trazer sistemas de IA mais próximos de capacidades de aprendizado autônomo que requerem menos dados fornecidos por humanos.