Líder de Investigación de Seguridad de OpenAI se Une a Anthropic

Andrea Vallone, quien lideró la investigación de OpenAI sobre cómo los modelos de inteligencia artificial deben responder a los usuarios que muestran signos de angustia mental, ha dejado la empresa para unirse al equipo de alineación de Anthropic. Durante sus tres años en OpenAI, Vallone construyó el equipo de investigación de políticas de modelos, trabajó en la implementación de GPT-4 y GPT-5, y ayudó a desarrollar técnicas de seguridad como recompensas basadas en reglas. En Anthropic, continuará su trabajo bajo Jan Leike, centrándose en alinear el comportamiento de Claude en contextos novatos. Su movimiento destaca la creciente preocupación de la industria sobre la seguridad de la inteligencia artificial, especialmente en torno a las interacciones relacionadas con la salud mental.

Antecedentes y Rol en OpenAI

Andrea Vallone pasó tres años en OpenAI, donde construyó el equipo de investigación de "políticas de modelos". Su trabajo se centró en una pregunta con casi no precedentes establecidos: ¿cómo deben responder los modelos de inteligencia artificial cuando se enfrentan a signos de dependencia emocional o indicaciones tempranas de angustia mental? Vallone lideró la investigación sobre la implementación de GPT-4 y GPT-5, y ayudó a desarrollar procesos de entrenamiento para técnicas de seguridad populares como recompensas basadas en reglas.

Partida y Nuevo Cargo en Anthropic

Vallone anunció su partida de OpenAI y su nuevo rol en Anthropic en una publicación de LinkedIn. Se unirá al equipo de alineación de Anthropic, que se encarga de entender los mayores riesgos de los modelos de inteligencia artificial y cómo abordarlos. En Anthropic, trabajará bajo Jan Leike, el ex líder de investigación de seguridad de OpenAI que dejó la empresa en mayo de 2024 debido a preocupaciones sobre la cultura y los procesos de seguridad de OpenAI.

Enfoque en Seguridad de Salud Mental

El movimiento llega en medio de una creciente controversia sobre cómo los chatbots de inteligencia artificial manejan a los usuarios que muestran signos de lucha con la salud mental. En el último año, varios incidentes han llamado la atención pública, incluyendo casos en los que adolescentes murieron por suicidio o adultos cometieron actos violentos después de confiar en herramientas de inteligencia artificial. Las familias han presentado demandas por muerte injusta, y un subcomité del Senado ha celebrado audiencias sobre el tema. Los investigadores de seguridad, incluida Vallone, han sido encargados de abordar estos desafíos.

Compromiso de Anthropic

Sam Bowman, un líder del equipo de alineación de Anthropic, expresó orgullo por el enfoque serio de la empresa para determinar cómo debe comportarse un sistema de inteligencia artificial en contextos sensibles. Vallone repitió este sentimiento, afirmando que está "ansiosa por continuar mi investigación en Anthropic, centrándome en la alineación y el ajuste fino para dar forma al comportamiento de Claude en contextos novatos".

Implicaciones para la Industria de la Inteligencia Artificial

La transición de Vallone subraya el paisaje competitivo entre las principales startups de inteligencia artificial para atraer a los mejores talentos de seguridad. Tanto OpenAI como Anthropic están intensificando sus esfuerzos para desarrollar guardrails robustos que eviten fallos de seguridad en conversaciones más largas, especialmente aquellas que involucran señales de salud mental. El movimiento también destaca la importancia de equipos de investigación dedicados a la política, la alineación y el ajuste fino para garantizar que los sistemas de inteligencia artificial actúen de manera responsable.