Chatbots de IA Erram na Maioria dos Diagnósticos Médicos, Estudo Adverte

AI Chatbots Miss Most Medical Diagnoses, Study Warns

Pontos principais

  • Estudo na Nature Medicine testou ChatGPT e Llama 3 da Meta para conselhos médicos.
  • Apenas cerca de 34,5% dos diagnósticos estavam corretos entre 1.298 participantes do Reino Unido.
  • Etapes de acompanhamento corretas foram fornecidas apenas 44,2% do tempo.
  • Informações incompletas do usuário levaram a muitas respostas imprecisas.
  • Dois casos mostraram respostas inicialmente corretas que se tornaram erradas após mais detalhes.
  • GMLs pontuam comparativamente a benchmarks do USMLE, mas ainda subperformam na prática.
  • Três em cada cinco adultos nos EUA dizem usar IA para informações de saúde.
  • O aviso da OpenAI alerta que a IA pode cometer erros.
  • Pesquisadores aconselham contra confiar em chatbots para decisões médicas sérias.

Um novo estudo publicado na Nature Medicine examinou como grandes modelos de linguagem, como o ChatGPT e o Llama 3 da Meta, performaram quando solicitados para dar conselhos médicos. Entre 1.298 participantes do Reino Unido, os modelos identificaram corretamente as condições médicas em menos de 34,5% dos casos e ofereceram etapas de acompanhamento corretas apenas 44,2% do tempo. A pesquisa destaca que os usuários frequentemente fornecem informações incompletas, levando a respostas imprecisas, e alerta contra confiar em chatbots de IA para decisões de saúde sérias.

Visão Geral do Estudo

Uma investigação recente apresentada na Nature Medicine avaliou a precisão diagnóstica de grandes modelos de linguagem (GMLs) quando usados para conselhos médicos. O estudo recrutou 1.298 participantes no Reino Unido que interagiram com sistemas de IA, como o ChatGPT e o Llama 3 da Meta. Ao longo da amostra, os modelos identificaram corretamente a condição médica subjacente em menos de 34,5% das interações.

Detalhes de Desempenho

Embora os GMLs tenham alcançado pontuações de referência comparáveis ao exame de licenciamento médico dos Estados Unidos e seus documentos clínicos gerados às vezes sejam avaliados como equivalentes ou melhores do que os escritos por médicos, o desempenho diagnóstico no mundo real ficou aquém. Quando os participantes forneceram apenas informações parciais — um cenário observado em 16 de 30 trocas amostradas — os modelos frequentemente produziram respostas incompletas ou incorretas. Em dois casos, um diagnóstico inicialmente correto foi alterado posteriormente com novas informações imprecisas após o usuário fornecer detalhes adicionais.

Orientação de Acompanhamento

Além do diagnóstico inicial, os sistemas de IA também tiveram dificuldade em recomendar etapas de acompanhamento apropriadas. Instruções de acompanhamento corretas foram fornecidas apenas 44,2% do tempo, destacando limitações na capacidade dos modelos de orientar pacientes por meio de cuidados subsequentes.

Comportamento e Expectativas do Usuário

Uma pesquisa realizada pela OpenAI revelou que três em cada cinco adultos nos EUA relatam usar IA para fins relacionados à saúde. Os respondentes disseram que recorrem à IA quando se sentem mal, para se preparar para consultas e para entender melhor as instruções médicas. Apesar de um aviso no ChatGPT que afirma: "O ChatGPT pode cometer erros. Verifique as informações importantes", muitos usuários ainda aceitam os conselhos do chatbot como verdadeiros.

Implicações

Os resultados servem como um lembrete de que os chatbots de IA não devem ser a principal fonte de orientação médica, especialmente em situações sérias ou complexas. Embora a tecnologia mostre promessa, o estudo enfatiza a necessidade de cautela, entrada de usuário completa e consulta médica profissional para garantir decisões de saúde seguras e precisas.

#IA#chatbots#grandes modelos de linguagem#diagnóstico médico#saúde#segurança do paciente#OpenAI#Meta#Nature Medicine#ética de IA#conselhos médicos

Também disponível em: