Tal vez los agentes de IA puedan ser abogados después de todo

Las pruebas de benchmark recientes de los agentes de IA en tareas profesionales muestran un salto notable en el rendimiento, especialmente después de que Anthropic lanzó Opus 4.6. El nuevo modelo impulsó las puntuaciones de los bajos 20 a justo por debajo del 30 por ciento en ensayos de un solo disparo y alcanzó un promedio del 45 por ciento con múltiples intentos. Aunque todavía lejos de la competencia total, la mejora señala un progreso rápido en los modelos de base y sugiere que los profesionales del derecho pueden necesitar reconsiderar el cronograma de reemplazo de la IA.

Resaltan los benchmarks el rápido progreso de la IA

El mes pasado, un benchmark creado por Mercor midió cómo manejan los agentes de IA tareas profesionales como el derecho y el análisis corporativo. En ese momento, todos los modelos de los laboratorios principales obtuvieron puntuaciones por debajo del 25 por ciento, lo que llevó a los analistas a concluir que los abogados estaban a salvo de un reemplazo inmediato por la IA.

Desde entonces, Anthropic introdujo Opus 4.6, un nuevo modelo de base que alteró dramáticamente la clasificación. En ensayos de un solo disparo, donde el modelo recibe un solo intento para resolver un problema, Opus 4.6 alcanzó una puntuación justo por debajo del 30 por ciento. Cuando el modelo tuvo unos pocos intentos más, su rendimiento promedio se elevó al 45 por ciento. Esto representa un aumento sustancial con respecto a las puntuaciones anteriores, que oscilaban en torno al 18 por ciento.

Las características de agente pueden ser la clave

El lanzamiento de Opus 4.6 también agregó una suite de capacidades de agente, incluida la característica novedosa de "enjambres de agentes". Estas capacidades permiten al modelo descomponer problemas complejos y multietapa y coordinar múltiples subagentes para trabajar hacia una solución. Los observadores creen que dichas características contribuyeron a los mejores resultados de benchmark, especialmente en tareas que requieren razonamiento en capas, como el análisis legal.

Reacción de la industria

El director ejecutivo de Mercor, Brendan Foody, expresó un fuerte entusiasmo por el salto en el rendimiento. Describe el movimiento desde una puntuación del 18,4 por ciento a una puntuación del 29,8 por ciento en unos pocos meses como "increíble", subrayando el ritmo rápido del avance en la investigación de la IA.

Implicaciones para la profesión jurídica

A pesar del progreso, las puntuaciones de benchmark siguen estando muy por debajo del umbral del 100 por ciento necesario para una toma de decisiones jurídicas confiable y completa. En consecuencia, la amenaza inmediata de que la IA reemplace a los abogados sigue siendo limitada. Sin embargo, la mejora significativa sugiere que el campo jurídico debe adoptar una perspectiva más cautelosa que la que tenía un mes atrás. La brecha entre las capacidades actuales y la competencia total se está reduciendo, y las mejoras continuas en las características de agente podrían acelerar esa tendencia.

Mirando hacia adelante

La clasificación APEX-Agents, que rastrea estos resultados de benchmark, ahora refleja un entorno más competitivo entre los desarrolladores de IA. A medida que los modelos de base continúan evolucionando e incorporando herramientas de agente avanzadas, es probable que las rondas de benchmark futuras vean puntuaciones aún más altas. Las partes interesadas en la industria jurídica, la comunidad de investigación de la IA y los inversores en tecnología estarán observando de cerca para determinar cuándo la IA podría convertirse en un socio viable, o incluso un competidor, de los abogados humanos.