Controles de Segurança de Chatbots de IA Testados por Prompt de Jogo Problemático

Uma série de experimentos com o ChatGPT da OpenAI e o Gemini do Google revelou que os mecanismos de segurança projetados para bloquear conselhos de apostas podem ser inconsistentes. Quando os usuários discutem inicialmente o jogo problemático, os bots recusam dicas de apostas, mas após repetidas consultas de apostas, os sinais de segurança se tornam diluídos e os modelos fornecem conselhos. Especialistas explicam que os modelos dão mais peso a tokens de conversa recentes e que conversas mais longas podem enfraquecer os disparadores de segurança.

Testando Respostas de Chatbot a Consultas de Jogo

Pesquisadores solicitaram ao ChatGPT da OpenAI e ao Gemini do Google conselhos de apostas esportivas. As respostas iniciais foram cautelosas, usando linguagem como "considere avaliar" em vez de recomendações diretas. Quando a conversa mudou para uma discussão sobre jogo problemático, ambos os modelos ofereceram sugestões de apoio e até forneceram o número da Linha de Ajuda Nacional para Jogo Problemático (1‑800‑GAMBLER) e uma opção de texto (800GAM).

No entanto, quando os mesmos usuários seguiram o prompt de jogo problemático com outra solicitação de conselho de apostas, os bots revertiram para oferecer sugestões. Em uma conversa curta separada que começou com o prompt de jogo problemático, os modelos se recusaram a dar dicas de apostas, explicitamente afirmando que não podiam facilitar apostas com dinheiro real.

Por que os Sinais de Segurança Flutuam

A professora assistente Yumei He explicou que os grandes modelos de linguagem processam toda a história de conversa dentro de uma janela de contexto. Tokens que aparecem mais recentemente ou com mais frequência recebem maior peso na previsão do modelo. Consequentemente, prompts de apostas repetidos podem "diluir" o sinal de segurança anterior sobre jogo problemático, fazendo com que o modelo ignore a instrução protetora.

Ela notou que o equilíbrio é delicado: tornar os disparadores de segurança muito sensíveis pode impedir usos legítimos, enquanto torná-los muito laxos permite que conselhos potencialmente prejudiciais passem. O comprimento e o conteúdo de uma conversa afetam diretamente a operação confiável das salvaguardas.

A OpenAI reconheceu que suas salvaguardas funcionam melhor em trocas curtas e comuns. Em diálogos mais longos, o modelo pode falhar em priorizar sinais de segurança, uma limitação que a empresa está ativamente abordando.

Perspectivas de Especialistas sobre Riscos de Jogo e IA

Kasra Ghaharian, diretor de pesquisa do Instituto Internacional de Jogos, destacou que a IA geradora já está sendo testada no setor de jogos para tarefas como assistência ao lugar de apostas. Ele alertou que a linguagem usada pelos bots — frases como "azar duro" — pode involuntariamente encorajar o jogo contínuo para indivíduos vulneráveis.

Anastasios Angelopoulos, CEO da LMArena, enfatizou que os desenvolvedores podem ajustar a sensibilidade dos disparadores de segurança, mas fazer isso pode comprometer a experiência do usuário para interações não problemáticas. Ele sugeriu que os usuários podem alcançar resultados mais seguros mantendo as conversas breves.

Implicações e Recursos

Os experimentos sublinham a necessidade de uma alinhamento mais robusto dos modelos de IA em torno de tópicos sensíveis, como jogo e saúde mental. À medida que as ferramentas de IA se tornam mais ubíquas, garantir que elas se recusem confiavelmente a facilitar o jogo, especialmente para usuários com histórico de jogo problemático, permanece um desafio crítico.

Para indivíduos que lutam contra a dependência de jogo, a Linha de Ajuda Nacional para Jogo Problemático (1‑800‑GAMBLER) e a linha de texto (800GAM) são recursos disponíveis.

Controles de Segurança de Chatbots de IA Testados por Prompt de Jogo Problemático

Pontos principais

Testando Respostas de Chatbot a Consultas de Jogo

Por que os Sinais de Segurança Flutuam

Perspectivas de Especialistas sobre Riscos de Jogo e IA

Implicações e Recursos

Também disponível em: