OpenAI Afirma que GPT-5 Se Aproxima do Desempenho Humano no Novo Benchmark GDPval

Pontos principais
- A OpenAI introduziu o benchmark GDPval para comparar modelos de IA com especialistas humanos em 44 ocupações.
- O GPT-5-high alcançou uma taxa de vitória de cerca de 40,6% contra profissionais humanos.
- O Claude Opus 4.1 da Anthropic registrou uma taxa de vitória perto de 49% no mesmo teste.
- O benchmark se concentra em setores-chave da economia dos EUA, como saúde, finanças e manufatura.
- A OpenAI vê os resultados como um sinal de que a IA pode começar a offload trabalho rotineiro para muitos empregos.
- O escopo atual de teste é limitado; a OpenAI planeja expandir o GDPval para cobrir mais tarefas e fluxos de trabalho.
- Analistas veem o GDPval como um passo em direção à medição realista do impacto econômico da IA.
OpenAI introduziu um novo benchmark chamado GDPval, que compara os modelos de IA com especialistas humanos em dezenas de ocupações. No lançamento inicial, o GPT-5-high foi considerado melhor ou igual a profissionais em cerca de 40,6% das tarefas, enquanto o Claude Opus 4.1 da Anthropic alcançou uma taxa de vitória de aproximadamente 49%. O teste abrangeu 44 funções que abrangem setores-chave, como saúde, finanças e manufatura.
OpenAI Lança Benchmark GDPval para Medir a IA Contra Profissionais Humanos
OpenAI anunciou um novo benchmark chamado GDPval, projetado para comparar a saída dos modelos de IA com a de profissionais experientes em uma ampla gama de indústrias e ocupações. O benchmark se concentra em setores que contribuem significativamente para a economia dos EUA, incluindo saúde, finanças, manufatura e governo, e avalia o desempenho em 44 funções distintas.
Para a primeira versão, chamada GDPval-v0, a OpenAI pediu que trabalhadores experientes revisassem relatórios gerados por IA ao lado de relatórios gerados por humanos e escolhessem o melhor. A "taxa de vitória" do modelo representa a porcentagem de vezes que seu trabalho é considerado igual ou superior ao baseline humano em todas as ocupações.
Resultados Mostram GPT-5-high e Claude Opus Fazendo Progressos
Na execução inicial, o modelo GPT-5-high da OpenAI, uma variante mais poderosa do GPT-5, foi considerado melhor ou igual a especialistas em cerca de 40,6% das tarefas. O Claude Opus 4.1 da Anthropic apresentou um desempenho ligeiramente melhor, alcançando uma taxa de vitória perto de 49%. Em contraste, o modelo GPT-4o anterior da OpenAI marcou cerca de 13,7%.
A OpenAI observou que o desempenho forte do Claude pode decorrer de sua capacidade de produzir gráficos agradáveis, em vez de desempenho puro, mas ambos os modelos demonstram progresso notável em comparação com lançamentos anteriores.
Implicações para a Força de Trabalho
A empresa apresenta o benchmark como evidência de que os sistemas de IA estão se tornando capazes o suficiente para ajudar profissionais em aspectos rotineiros de seu trabalho, potencialmente liberando tempo para atividades de maior valor. O economista-chefe da OpenAI destacou que, à medida que os modelos melhoram, os trabalhadores podem offload mais tarefas para a IA, aumentando a produtividade em vários setores.
No entanto, a OpenAI alerta que o GDPval-v0 testa um conjunto limitado de tarefas e não captura a complexidade completa de muitos trabalhos. A empresa planeja ampliar o benchmark para cobrir fluxos de trabalho interativos e uma gama mais ampla de ocupações.
Perspectiva da Indústria
Analistas veem os resultados do GDPval como um passo em direção a avaliações mais realistas do impacto econômico da IA. Embora o escopo atual do benchmark seja limitado, ele oferece uma maneira concreta de medir o progresso em direção à inteligência artificial geral, um objetivo central da missão da OpenAI.
Iterações futuras do GDPval devem incorporar indústrias adicionais e conjuntos de tarefas mais abrangentes, fornecendo insights mais profundos sobre como a IA pode complementar - em vez de substituir - a expertise humana.