Estudo de Harvard descobre que o modelo o1 da OpenAI supera médicos no diagnóstico de triagem de emergência

Um estudo liderado por Harvard comparou o modelo de raciocínio o1 da OpenAI com médicos humanos em um departamento de emergência de Boston e mostrou que a IA identificou corretamente o diagnóstico exato ou próximo-exato em 67% dos casos, superando os médicos que obtiveram entre 50% e 55%. Quando fornecida com informações mais detalhadas sobre os pacientes, a precisão do modelo aumentou para 82% versus 70%-79% para os clínicos. Os pesquisadores alertam que os resultados não são estatisticamente significativos e notam que a IA não pode avaliar sinais visuais ou o comportamento do paciente, mas sugerem que a tecnologia pode servir como uma segunda opinião rápida na atenção de emergência.

Em um teste direto realizado em um hospital de Boston, um sistema de inteligência artificial desenvolvido pela OpenAI superou médicos em exercício no diagnóstico de pacientes de emergência. O estudo, supervisionado por pesquisadores de Harvard, opôs o modelo de raciocínio o1 a dois médicos que utilizaram registros eletrônicos de saúde idênticos para cada caso.

Desenho do estudo e resultados

Setenta e seis pacientes que chegaram ao departamento de emergência foram avaliados. Para cada caso, a IA e os médicos receberam os mesmos dados básicos: sinais vitais, detalhes demográficos e uma nota breve escrita pela enfermeira descrevendo o motivo da visita. Na primeira rodada, a IA identificou o diagnóstico exato ou próximo-exato em 67% dos casos. Os médicos humanos obtiveram entre 50% e 55%.

Uma segunda rodada forneceu informações mais abrangentes. Nessas condições, a precisão do modelo o1 aumentou para 82%, enquanto a performance dos médicos variou de 70% a 79%. Os pesquisadores notaram que a diferença entre a IA e os médicos não alcançou significância estatística, temperando as alegações de superioridade clara.

Implicações e advertências

O autor principal, Dr. Adam Rodman, um médico do Beth Israel Deaconess Medical Center, enfatizou que o experimento testou o raciocínio médico baseado em texto, não o espectro completo da avaliação de emergência. "O modelo não vê o desconforto do paciente, o tom, a linguagem corporal ou outros sinais do mundo real que os clínicos confiam", disse ele.

Apesar dessas limitações, Rodman imagina um "modelo de cuidado triádico" onde médicos, pacientes e IA colaboram. Nesse cenário, o sistema pode fornecer uma segunda opinião rápida, especialmente quando os clínicos precisam tomar decisões rápidas com dados limitados.

Os especialistas, no entanto, levantaram várias preocupações. A responsabilidade por erros impulsionados por IA permanece nebulosa, e a segurança do paciente pode ser comprometida se os clínicos confiarem excessivamente em sugestões algorítmicas. Os autores do estudo enfatizaram que a tecnologia não está pronta para implantação sem supervisão em departamentos de emergência.

Por enquanto, o modelo o1 parece ser mais adequado como uma ferramenta auxiliar, oferecendo sugestões diagnósticas rápidas que os médicos podem verificar contra seu próprio julgamento clínico. À medida que a IA continua a evoluir, mais testes com tamanhos de amostra maiores e interação de paciente em tempo real serão necessários para determinar se tais sistemas podem aumentar com segurança a atenção de emergência.

Estudo de Harvard descobre que o modelo o1 da OpenAI supera médicos no diagnóstico de triagem de emergência

Pontos principais

Desenho do estudo e resultados

Implicações e advertências

Também disponível em: