La función de creación de archivos de Claude de Anthropic plantea preocupaciones de seguridad

Puntos clave
- Anthropic lanzó una función de creación de archivos para el modelo de inteligencia artificial Claude.
- Los usuarios Pro y Max no pueden compartir públicamente conversaciones que utilicen la función.
- Los clientes de Enterprise reciben aislamiento de sandbox y tiempo de ejecución de tarea limitado.
- Los administradores pueden incluir en la lista de permitidos dominios específicos como api.anthropic.com y github.com.
- Anthropic recomienda pruebas de seguridad y evaluaciones de equipo rojo continuas.
- El investigador Simon Willison criticó la guía de "monitorear a Claude" por trasladar el riesgo a los usuarios.
- Willison advirtió sobre vulnerabilidades persistentes de inyección de instrucciones que podrían filtrar datos.
- El debate destaca los compromisos de seguridad para las empresas que adoptan nuevas capacidades de inteligencia artificial.
Anthropic introdujo una capacidad de creación de archivos para su modelo de inteligencia artificial Claude. Aunque la empresa agregó salvaguardias, como deshabilitar la compartición pública para usuarios Pro y Max, aislamiento de sandbox para Enterprise, duración de tarea limitada y listas de permitidos de dominios, el investigador independiente Simon Willison advirtió que la función aún plantea riesgos de inyección de instrucciones. Willison resaltó que el consejo de Anthropic de "monitorear a Claude mientras se utiliza la función" traslada la responsabilidad a los usuarios.
Descripción general de la función
Anthropic ha lanzado una función de creación de archivos para su modelo de inteligencia artificial Claude, lo que permite a los usuarios generar y manipular archivos directamente dentro de una interfaz conversacional. La capacidad está disponible en varios niveles de suscripción, incluidos Pro, Max, Team y Enterprise.
Salvaguardias de seguridad de Anthropic
Para abordar el posible mal uso, Anthropic implementó una serie de mitigaciones. Para los usuarios Pro y Max, se deshabilita la compartición pública de conversaciones que emplean la función de creación de archivos. Los clientes de Enterprise reciben aislamiento de sandbox para que los entornos nunca compartan datos entre usuarios. La empresa también limita la duración de la tarea y el tiempo de ejecución del contenedor para reducir la posibilidad de bucles maliciosos.
Los administradores de los planes Team y Enterprise pueden configurar una lista de permitidos de dominios que Claude puede acceder. La lista de permitidos documentada incluye api.anthropic.com, github.com, registry.npmjs.org y pypi.org. La documentación de Anthropic establece que Claude solo puede ser engañado para filtrar datos que tiene acceso a en una conversación a través de una instrucción, proyecto o "conexiones activadas" de un usuario individual.
La empresa enfatiza un proceso continuo de pruebas de seguridad y ejercicios de equipo rojo, instando a las organizaciones a evaluar estas protecciones contra sus propias necesidades de seguridad antes de habilitar la función.
Crítica de expertos
El investigador de inteligencia artificial independiente Simon Willison revisó la función en su blog, describiendo el consejo de Anthropic de "monitorear a Claude mientras se utiliza la función" como un traslado injusto de responsabilidad a los usuarios. Willison advirtió que, a pesar de las salvaguardias, la función sigue siendo vulnerable a ataques de inyección de instrucciones que podrían causar filtración de datos.
Willison planea ser cauteloso con cualquier dato que no desee exponer a un tercero, incluso si el riesgo parece mínimo. Hizo referencia a trabajos anteriores sobre ataques de inyección de instrucciones, señalando que tales problemas han persistido durante "casi tres años después de que empezamos a hablar sobre ellos".
Implicaciones para las empresas
El lanzamiento destaca una tensión entre la rápida implementación de funciones de inteligencia artificial y la seguridad robusta. Las empresas que consideran Claude para documentos comerciales sensibles deben sopesar las mitigaciones de Anthropic contra las preocupaciones documentadas planteadas por los investigadores de seguridad. La situación sugiere que la presión competitiva en la carrera armamentística de la inteligencia artificial puede estar influenciando las decisiones de producto, potencialmente a expensas de una validación de seguridad exhaustiva.
En general, el episodio subraya los desafíos continuos en la seguridad de los sistemas de inteligencia artificial, especialmente a medida que se expanden las nuevas capacidades como la creación de archivos.