OpenAI Revela el Funcionamiento Interno de su Agente de Codificación de IA

OpenAI Reveals Inner Workings of Its AI Coding Agent

Puntos clave

  • OpenAI y Anthropic han publicado sus clientes de línea de comandos de codificación en GitHub.
  • El núcleo del "ciclo del agente" coordina la entrada del usuario, las respuestas del modelo y las llamadas a herramientas.
  • El ciclo se repite: construir llamada, consultar modelo, ejecutar herramientas solicitadas y volver a consultar.
  • Los componentes de la llamada incluyen roles de sistema, desarrollador, usuario y asistente.
  • Las instrucciones provienen de archivos de configuración del usuario o de paquetes predeterminados de la línea de comandos.
  • Las herramientas definidas incluyen comandos de shell, utilidades de planificación, búsqueda en la web y herramientas personalizadas basadas en MCP.
  • El campo de entrada captura permisos de sandbox, contexto de entorno y el mensaje del usuario.
  • Las interfaces web para ChatGPT y Claude siguen siendo de código cerrado.
  • La transparencia permite a los desarrolladores examinar y construir sobre la arquitectura del agente.

OpenAI y Anthropic han publicado sus clientes de línea de comandos de codificación en GitHub, lo que permite a los desarrolladores ver el código que impulsa sus herramientas de programación asistidas por IA. Un artículo reciente de Bolin explica el núcleo del "ciclo del agente" que coordina la entrada del usuario, las respuestas del modelo y las llamadas a herramientas.

Visión General del Ciclo del Agente

El mecanismo central detrás del asistente de codificación de OpenAI es un "ciclo del agente" que orquesta la interacción entre un usuario, el modelo de IA y las herramientas de software que el modelo puede invocar. El ciclo comienza cuando un usuario proporciona entrada, que el agente transforma en una llamada de texto para el modelo. El modelo genera una respuesta. Esa respuesta puede ser una respuesta directa para el usuario o una solicitud para llamar a una herramienta, como ejecutar un comando de shell, realizar una búsqueda en la web o acceder a una función personalizada a través de un servidor de Protocolo de Contexto de Modelo. Si se solicita una llamada a una herramienta, el agente ejecuta la herramienta, captura su salida, agrega esa salida a la llamada original y envía la llamada actualizada de regreso al modelo. Este ciclo se repite, con el modelo recibiendo continuamente un contexto más rico, hasta que deja de solicitar herramientas y produce un mensaje final de asistente para el usuario.

Detalles de la Construcción de la Llamada

La llamada inicial enviada a la API de Respuestas de OpenAI se construye desde varios campos distintos, cada uno asignado a un rol que determina su prioridad en la conversación. El campo instrucciones proviene de un archivo de configuración proporcionado por el usuario o de instrucciones predeterminadas incluidas con el cliente de línea de comandos. El campo herramientas enumera las funciones que el modelo está permitido llamar, cubriendo capacidades integradas como comandos de shell, utilidades de planificación, características de búsqueda en la web y cualquier herramienta personalizada proporcionada a través de servidores de Protocolo de Contexto de Modelo (MCP). El campo entrada contiene una serie de elementos que describen permisos de sandbox, instrucciones opcionales del desarrollador, el directorio de trabajo actual como contexto de entorno y finalmente el mensaje real del usuario. Juntos, estos componentes forman una llamada estructurada que guía el comportamiento del modelo a lo largo del ciclo del agente.

Disponibilidad de Código Abierto

OpenAI y Anthropic han elegido publicar sus clientes de línea de comandos de codificación en GitHub, brindando a los desarrolladores acceso directo a los detalles de implementación de estos asistentes de programación impulsados por IA. Esta transparencia permite a la comunidad examinar cómo se ensamblan las llamadas, cómo se gestionan las llamadas a herramientas y cómo opera la lógica de ciclo. En contraste, las interfaces web para ChatGPT y Claude siguen siendo de código cerrado, lo que significa que su código subyacente no está disponible públicamente.

Implicaciones para los Desarrolladores

Al exponer los clientes de línea de comandos, OpenAI y Anthropic permiten a los desarrolladores estudiar y potencialmente extender la arquitectura del ciclo del agente. Comprender la construcción de la llamada basada en roles y el ciclo iterativo de ejecución de herramientas puede informar el diseño de nuevas herramientas de desarrollo asistidas por IA, integraciones personalizadas y flujos de trabajo mejorados que aprovechan los mismos principios subyacentes. La descripción detallada del ciclo del agente sirve como un plan para construir agentes de IA transparentes, controlables que pueden interactuar de manera segura con herramientas externas mientras mantienen un contexto conversacional claro.

#OpenAI#Anthropic#Inteligencia Artificial#Agente de Codificación#CLI#GitHub#Herramientas de Software#Protocolo de Contexto de Modelo#Desarrollo de IA#Código Abierto

También disponible en:

OpenAI Revela el Funcionamiento Interno de su Agente de Codificación de IA | AI News