Los modelos de IA no cumplen con el nuevo estándar profesional, encuentran los investigadores

Un nuevo estándar llamado APEX-Agents, diseñado para probar el rendimiento de la IA en tareas profesionales del mundo real en consultoría, banca de inversión y derecho, revela que los modelos de IA actuales luchan por cumplir con las demandas del trabajo del conocimiento. Los investigadores de Mercur informan que incluso los modelos de mejor desempeño responden correctamente solo alrededor de una cuarta parte de las preguntas, destacando desafíos en el razonamiento multi-dominio y la recuperación de información a través de herramientas como Slack y Google Drive. Los hallazgos sugieren que la IA aún está lejos de reemplazar a los profesionales capacitados en roles de alto valor.

Antecedentes

Casi dos años después de que un importante director ejecutivo de tecnología predijo que la inteligencia artificial reemplazaría muchos empleos de trabajo del conocimiento, el progreso ha sido lento en comparación con lo esperado. Aunque los grandes modelos de lenguaje han avanzado en capacidades de investigación y planificación, su impacto en profesiones como la consultoría, la banca de inversión y el derecho sigue siendo limitado.

Presentación del estándar APEX-Agents

Para evaluar la preparación de la IA para tareas profesionales, los investigadores de Mercur crearon un estándar llamado APEX-Agents. La prueba extrae consultas reales de expertos en el mercado de la empresa y mide cómo bien los sistemas de IA pueden manejar un trabajo sostenido y específico del dominio. Los escenarios están modelados según entornos profesionales reales, requiriendo navegación a través de múltiples plataformas y fuentes de datos.

Resultados del rendimiento

Los resultados del estándar muestran que todos los modelos de IA evaluados reciben calificaciones de reprobado. Incluso el sistema de mejor desempeño, Gemini 3 Flash, logra solo un 24% de precisión en un solo intento, mientras que GPT-5.2 obtiene un 23%. Otros modelos oscilan alrededor del 18% de precisión. En la mayoría de los casos, los modelos proporcionan respuestas incorrectas o no proporcionan respuesta alguna, lo que indica una brecha significativa entre las capacidades actuales de la IA y las demandas de tareas profesionales de alto valor.

Desafíos clave identificados

Los investigadores identificaron el razonamiento multi-dominio como el principal obstáculo. Los profesionales suelen trabajar a través de herramientas como Slack, Google Drive y otros sistemas internos, y los modelos de IA luchan por recuperar y sintetizar la información dispersa en estos entornos. Esta limitación obstaculiza la capacidad de los modelos para realizar tareas que requieren un contexto completo y la referencia cruzada de datos.

Implicaciones para el futuro del trabajo

Los hallazgos sugieren que, por ahora, los sistemas de IA son comparables a internos que obtienen la respuesta correcta aproximadamente una cuarta parte del tiempo. Sin embargo, los investigadores señalan que el progreso ha sido rápido, y el rendimiento actual representa una mejora notable en comparación con años anteriores. La publicación del estándar APEX-Agents invita a los laboratorios de IA a desarrollar mejores soluciones, lo que podría acelerar los avances hacia asistentes profesionales más capaces.