Estudio de Harvard encuentra que el modelo o1 de OpenAI supera a los médicos en el diagnóstico de triage en la sala de emergencias

Puntos clave
- Un ensayo de Harvard comparó el modelo o1 de OpenAI con dos médicos de emergencia que utilizaron registros de pacientes idénticos.
- La IA diagnosticó correctamente el 67% de 76 casos en la primera prueba; los médicos obtuvieron entre el 50%-55%.
- Con más datos detallados, la precisión de la IA aumentó al 82% en comparación con el 70%-79% de los médicos.
- El análisis estadístico encontró que la brecha de desempeño no fue significativa.
- La IA carece de la capacidad para evaluar señales visuales, el tono y el estado de ánimo del paciente.
- Los investigadores proponen un modelo triádico que combine a médicos, pacientes y IA para obtener segundas opiniones rápidas.
- Las preocupaciones incluyen la responsabilidad, la seguridad del paciente y la posible confianza excesiva en las recomendaciones de la IA.
Un ensayo liderado por Harvard que comparó el modelo de razonamiento o1 de OpenAI con médicos humanos en un departamento de emergencias de Boston mostró que la IA identificó correctamente el diagnóstico exacto o cercano en el 67% de los casos, superando a los médicos que obtuvieron entre el 50% y el 55%. Cuando se proporcionó más información detallada sobre los pacientes, la precisión del modelo aumentó al 82% en comparación con el 70%-79% de los clínicos. Los investigadores advierten que los hallazgos no son estadísticamente significativos y señalan que la IA no puede evaluar señales visuales o el estado de ánimo del paciente, pero sugieren que la tecnología podría servir como una segunda opinión rápida en la atención de emergencia.
En un ensayo cara a cara realizado en un hospital de Boston, un sistema de inteligencia artificial construido por OpenAI superó a los médicos en el diagnóstico de pacientes en la sala de emergencias. El estudio, supervisado por investigadores de Harvard, enfrentó el modelo de razonamiento o1 contra dos médicos que utilizaron registros de salud electrónicos idénticos para cada caso.
Diseño del estudio y resultados
Se evaluaron a 76 pacientes que llegaron al departamento de emergencias. Para cada caso, la IA y los médicos recibieron los mismos datos básicos: signos vitales, detalles demográficos y una breve nota escrita por una enfermera que describía el motivo de la visita. En la primera ronda, la IA identificó el diagnóstico exacto o cercano en el 67% de los casos. Los médicos humanos obtuvieron entre el 50% y el 55%.
En una segunda ronda, se proporcionó información más completa. Bajo esas condiciones, la precisión del modelo o1 aumentó al 82%, mientras que el desempeño de los médicos varió entre el 70% y el 79%. Los investigadores señalaron que la brecha entre la IA y los médicos no alcanzó la significación estadística, lo que modera las afirmaciones de una clara superioridad.
Implicaciones y advertencias
El autor principal, el Dr. Adam Rodman, un médico del Centro Médico Beth Israel Deaconess, enfatizó que el experimento probó la capacidad de razonamiento médico basada en texto, no el espectro completo de la evaluación en la sala de emergencias. "El modelo no ve la angustia del paciente, el tono, el lenguaje corporal o otras señales del mundo real en las que confían los clínicos", dijo.
A pesar de esas limitaciones, Rodman vislumbra un "modelo de atención triádica" en el que los médicos, los pacientes y la IA colaboran. En ese contexto, el sistema podría proporcionar una segunda opinión rápida, especialmente cuando los clínicos necesitan tomar decisiones rápidas con datos limitados.
Los expertos, sin embargo, plantearon varias preocupaciones. La responsabilidad por los errores impulsados por la IA sigue siendo confusa, y la seguridad del paciente podría estar en peligro si los clínicos confían demasiado en las sugerencias algorítmicas. Los autores del estudio enfatizaron que la tecnología no está lista para ser desplegada de forma autónoma en los departamentos de emergencias.
Por ahora, el modelo o1 parece ser más adecuado como una herramienta auxiliar, que ofrece sugerencias diagnósticas rápidas que los médicos pueden verificar contra su propio juicio clínico. A medida que la IA sigue evolucionando, se necesitarán más ensayos con tamaños de muestra más grandes y una interacción en tiempo real con los pacientes para determinar si tales sistemas pueden aumentar de manera segura la atención de emergencia.