Líder de Pesquisa de Segurança da OpenAI se Junta à Anthropic

Thumbnail: OpenAI Safety Research Lead Joins Anthropic

Pontos principais

  • Andrea Vallone liderou a pesquisa da OpenAI sobre respostas de IA ao distresse de saúde mental.
  • Ela construiu a equipe de pesquisa de política de modelo e trabalhou no deploy do GPT-4 e GPT-5.
  • Vallone passou três anos na OpenAI antes de se mudar para a Anthropic.
  • Na Anthropic, ela se juntará à equipe de alinhamento sob Jan Leike.
  • Seu novo foco é alinhar o comportamento do Claude em contextos novos.
  • A mudança reflete a preocupação crescente da indústria com a segurança da IA e interações de saúde mental.
  • Incidentes recentes provocaram processos e audiências no Senado sobre a segurança dos chatbots.

Andrea Vallone, que liderou a pesquisa da OpenAI sobre como os modelos de IA devem responder a usuários que mostram sinais de distresse de saúde mental, deixou a empresa para se juntar à equipe de alinhamento da Anthropic. Durante seus três anos na OpenAI, Vallone construiu a equipe de pesquisa de política de modelo, trabalhou no deploy do GPT-4 e GPT-5 e ajudou a desenvolver técnicas de segurança, como recompensas baseadas em regras. Na Anthropic, ela continuará seu trabalho sob Jan Leike, focando em alinhar o comportamento do Claude em contextos novos. Sua mudança destaca a preocupação contínua da indústria com a segurança da IA, especialmente em torno de interações relacionadas à saúde mental.

Fundo e Papel na OpenAI

Andrea Vallone passou três anos na OpenAI, onde construiu a equipe de pesquisa de "política de modelo". Seu trabalho centrou-se em uma questão com quase nenhum precedente estabelecido: como os modelos de IA devem responder quando confrontados com sinais de dependência emocional ou indicações precoces de distresse de saúde mental. Vallone liderou a pesquisa sobre o deploy do GPT-4 e GPT-5 e ajudou a desenvolver processos de treinamento para técnicas de segurança populares, como recompensas baseadas em regras.

Partida e Novo Cargo na Anthropic

Vallone anunciou sua partida da OpenAI e seu novo cargo na Anthropic em uma postagem no LinkedIn. Ela se juntará à equipe de alinhamento da Anthropic, que é responsável por entender os maiores riscos dos modelos de IA e como abordá-los. Na Anthropic, ela trabalhará sob Jan Leike, o líder de pesquisa de segurança da OpenAI que deixou a empresa em maio de 2024 devido a preocupações com a cultura e os processos de segurança da OpenAI.

Foco em Segurança de Saúde Mental

A mudança ocorre em meio a uma controvérsia crescente sobre como os chatbots de IA lidam com usuários que exibem sinais de luta de saúde mental. Ao longo do último ano, vários incidentes chamaram a atenção pública, incluindo casos em que adolescentes morreram por suicídio ou adultos cometeram atos violentos após confidenciar em ferramentas de IA. Famílias entraram com processos por morte injusta e uma subcomissão do Senado realizou audiências sobre o assunto. Pesquisadores de segurança, incluindo Vallone, foram encarregados de abordar esses desafios.

Compromisso da Anthropic

Sam Bowman, um líder da equipe de alinhamento da Anthropic, expressou orgulho da abordagem séria da empresa para descobrir como um sistema de IA deve se comportar em contextos sensíveis. Vallone ecoou esse sentimento, afirmando que está "ansiosa para continuar minha pesquisa na Anthropic, focando em alinhamento e fine-tuning para moldar o comportamento do Claude em contextos novos".

Implicações para a Indústria de IA

A transição de Vallone destaca a paisagem competitiva entre as principais startups de IA para atrair talentos de segurança de alto nível. Tanto a OpenAI quanto a Anthropic estão intensificando os esforços para desenvolver guardrails robustos que previnam falhas de segurança em conversas mais longas, especialmente aquelas que envolvem sinais de saúde mental. A mudança também destaca a importância de equipes de pesquisa dedicadas à política, alinhamento e fine-tuning para garantir que os sistemas de IA atuem de forma responsável.

#Inteligência Artificial#Segurança de IA#OpenAI#Anthropic#Saúde Mental#Ética de Chatbot#Alinhamento de Modelo#GPT-4#GPT-5#Claude#Pesquisa de Política

Também disponível em: