OpenAI afirma que GPT-5 se acerca al rendimiento humano en la nueva medición de GDPval

Puntos clave
- OpenAI presentó la medición de GDPval para comparar modelos de inteligencia artificial con expertos humanos en 44 ocupaciones.
- GPT-5-high logró una tasa de victoria de aproximadamente el 40.6% contra profesionales humanos.
- Anthropic’s Claude Opus 4.1 registró una tasa de victoria cerca del 49% en la misma prueba.
- La medición se centra en sectores clave de la economía de los Estados Unidos, como la salud, las finanzas y la manufactura.
- OpenAI ve los resultados como una señal de que la inteligencia artificial puede comenzar a descargarse el trabajo rutinario para muchos empleos.
- El alcance actual de la prueba es limitado; OpenAI planea ampliar GDPval para cubrir más tareas y flujos de trabajo.
- Los analistas ven GDPval como un paso hacia la medición realista del impacto económico de la inteligencia artificial.
OpenAI presentó una nueva medición llamada GDPval que compara los modelos de inteligencia artificial con expertos humanos en decenas de ocupaciones. En la primera versión, GPT-5-high fue considerado mejor o igual que los profesionales en aproximadamente el 40.6% de las tareas, mientras que Claude Opus 4.1 de Anthropic logró una tasa de victoria de aproximadamente el 49%. La prueba cubrió 44 roles que abarcan sectores clave como la salud, las finanzas y la manufactura. OpenAI afirma que los resultados muestran que la inteligencia artificial puede comenzar a descargarse el trabajo rutinario para muchos empleos, aunque reconoce que el alcance actual es limitado y planea ampliar la cobertura de la medición.
OpenAI lanza la medición de GDPval para medir la inteligencia artificial contra profesionales humanos
OpenAI anunció una nueva medición llamada GDPval, diseñada para comparar la salida de sus modelos de inteligencia artificial con la de profesionales experimentados en una amplia gama de industrias y ocupaciones. La medición se centra en sectores que contribuyen en gran medida a la economía de los Estados Unidos, incluyendo la salud, las finanzas, la manufactura y el gobierno, y evalúa el rendimiento en cuarenta y cuatro empleos distintos.
Para la primera versión, llamada GDPval-v0, OpenAI pidió a trabajadores experimentados que revisaran informes generados por inteligencia artificial junto con informes generados por humanos y eligieran el mejor. La "tasa de victoria" del modelo representa el porcentaje de veces que su trabajo es considerado igual o superior al estándar humano en todas las ocupaciones.
Los resultados muestran que GPT-5-high y Claude Opus están avanzando
En la primera corrida, el modelo GPT-5-high de OpenAI, una variante más poderosa de GPT-5, fue considerado mejor o igual que los expertos en aproximadamente el 40.6% de las tareas. Anthropic’s Claude Opus 4.1 obtuvo un resultado ligeramente superior, logrando una tasa de victoria cerca del 49%. Por otro lado, el modelo GPT-4o de OpenAI anterior obtuvo aproximadamente el 13.7%.
OpenAI señaló que el buen desempeño de Claude puede deberse a su capacidad para producir gráficos agradables en lugar de pura capacidad, pero ambos modelos demuestran un progreso notable en comparación con versiones anteriores.
Implicaciones para la fuerza laboral
La empresa presenta la medición como evidencia de que los sistemas de inteligencia artificial están volviéndose lo suficientemente capaces como para asistir a los profesionales en aspectos rutinarios de su trabajo, potencialmente liberando tiempo para actividades de mayor valor. El economista jefe de OpenAI destacó que a medida que los modelos mejoran, los trabajadores pueden descargar más tareas a la inteligencia artificial, mejorando la productividad en todos los sectores.
No obstante, OpenAI advierte que GDPval-v0 prueba un conjunto limitado de tareas y no captura la complejidad completa de muchos empleos. La empresa planea ampliar la medición para cubrir flujos de trabajo más interactivos y una gama más amplia de ocupaciones.
Perspectiva de la industria
Los analistas ven los resultados de GDPval como un paso hacia evaluaciones más realistas del impacto económico de la inteligencia artificial. Aunque el alcance actual de la medición es estrecho, ofrece una forma concreta de medir el progreso hacia la inteligencia artificial general, un objetivo central de la misión de OpenAI.
Se espera que las iteraciones futuras de GDPval incorporen industrias adicionales y conjuntos de tareas más completos, brindando una visión más profunda de cómo la inteligencia artificial puede complementar, en lugar de reemplazar, la experiencia humana.