Los modelos de IA no cumplen con el nuevo estándar profesional, encuentran los investigadores

Thumbnail: AI Models Fall Short on New Professional Benchmark, Researchers Find

Puntos clave

  • El estándar APEX-Agents prueba a la IA en tareas reales de consultoría, banca y derecho.
  • Todos los modelos evaluados no cumplen con el estándar, con una precisión máxima alrededor del 24%.
  • El razonamiento multi-dominio a través de herramientas como Slack y Google Drive es una debilidad importante.
  • El rendimiento actual de la IA se asemeja al de un interno que obtiene la respuesta correcta aproximadamente una cuarta parte del tiempo.
  • El estándar está disponible públicamente, lo que fomenta la investigación y la mejora adicionales.

Un nuevo estándar llamado APEX-Agents, diseñado para probar el rendimiento de la IA en tareas profesionales del mundo real en consultoría, banca de inversión y derecho, revela que los modelos de IA actuales luchan por cumplir con las demandas del trabajo del conocimiento. Los investigadores de Mercur informan que incluso los modelos de mejor desempeño responden correctamente solo alrededor de una cuarta parte de las preguntas, destacando desafíos en el razonamiento multi-dominio y la recuperación de información a través de herramientas como Slack y Google Drive. Los hallazgos sugieren que la IA aún está lejos de reemplazar a los profesionales capacitados en roles de alto valor.

Antecedentes

Casi dos años después de que un importante director ejecutivo de tecnología predijo que la inteligencia artificial reemplazaría muchos empleos de trabajo del conocimiento, el progreso ha sido lento en comparación con lo esperado. Aunque los grandes modelos de lenguaje han avanzado en capacidades de investigación y planificación, su impacto en profesiones como la consultoría, la banca de inversión y el derecho sigue siendo limitado.

Presentación del estándar APEX-Agents

Para evaluar la preparación de la IA para tareas profesionales, los investigadores de Mercur crearon un estándar llamado APEX-Agents. La prueba extrae consultas reales de expertos en el mercado de la empresa y mide cómo bien los sistemas de IA pueden manejar un trabajo sostenido y específico del dominio. Los escenarios están modelados según entornos profesionales reales, requiriendo navegación a través de múltiples plataformas y fuentes de datos.

Resultados del rendimiento

Los resultados del estándar muestran que todos los modelos de IA evaluados reciben calificaciones de reprobado. Incluso el sistema de mejor desempeño, Gemini 3 Flash, logra solo un 24% de precisión en un solo intento, mientras que GPT-5.2 obtiene un 23%. Otros modelos oscilan alrededor del 18% de precisión. En la mayoría de los casos, los modelos proporcionan respuestas incorrectas o no proporcionan respuesta alguna, lo que indica una brecha significativa entre las capacidades actuales de la IA y las demandas de tareas profesionales de alto valor.

Desafíos clave identificados

Los investigadores identificaron el razonamiento multi-dominio como el principal obstáculo. Los profesionales suelen trabajar a través de herramientas como Slack, Google Drive y otros sistemas internos, y los modelos de IA luchan por recuperar y sintetizar la información dispersa en estos entornos. Esta limitación obstaculiza la capacidad de los modelos para realizar tareas que requieren un contexto completo y la referencia cruzada de datos.

Implicaciones para el futuro del trabajo

Los hallazgos sugieren que, por ahora, los sistemas de IA son comparables a internos que obtienen la respuesta correcta aproximadamente una cuarta parte del tiempo. Sin embargo, los investigadores señalan que el progreso ha sido rápido, y el rendimiento actual representa una mejora notable en comparación con años anteriores. La publicación del estándar APEX-Agents invita a los laboratorios de IA a desarrollar mejores soluciones, lo que podría acelerar los avances hacia asistentes profesionales más capaces.

#inteligencia artificial#aprendizaje automático#servicios profesionales#evaluación de estándares#trabajo del conocimiento#investigación de IA#modelos de lenguaje grande#evaluación de tecnología#automatización#futuro del trabajo

También disponible en:

Los modelos de IA no cumplen con el nuevo estándar profesional, encuentran los investigadores | AI News