Estudio de Harvard encuentra que el modelo o1 de OpenAI supera a los médicos en el diagnóstico de triage en la sala de emergencias

Un ensayo liderado por Harvard que comparó el modelo de razonamiento o1 de OpenAI con médicos humanos en un departamento de emergencias de Boston mostró que la IA identificó correctamente el diagnóstico exacto o cercano en el 67% de los casos, superando a los médicos que obtuvieron entre el 50% y el 55%. Cuando se proporcionó más información detallada sobre los pacientes, la precisión del modelo aumentó al 82% en comparación con el 70%-79% de los clínicos. Los investigadores advierten que los hallazgos no son estadísticamente significativos y señalan que la IA no puede evaluar señales visuales o el estado de ánimo del paciente, pero sugieren que la tecnología podría servir como una segunda opinión rápida en la atención de emergencia.

En un ensayo cara a cara realizado en un hospital de Boston, un sistema de inteligencia artificial construido por OpenAI superó a los médicos en el diagnóstico de pacientes en la sala de emergencias. El estudio, supervisado por investigadores de Harvard, enfrentó el modelo de razonamiento o1 contra dos médicos que utilizaron registros de salud electrónicos idénticos para cada caso.

Diseño del estudio y resultados

Se evaluaron a 76 pacientes que llegaron al departamento de emergencias. Para cada caso, la IA y los médicos recibieron los mismos datos básicos: signos vitales, detalles demográficos y una breve nota escrita por una enfermera que describía el motivo de la visita. En la primera ronda, la IA identificó el diagnóstico exacto o cercano en el 67% de los casos. Los médicos humanos obtuvieron entre el 50% y el 55%.

En una segunda ronda, se proporcionó información más completa. Bajo esas condiciones, la precisión del modelo o1 aumentó al 82%, mientras que el desempeño de los médicos varió entre el 70% y el 79%. Los investigadores señalaron que la brecha entre la IA y los médicos no alcanzó la significación estadística, lo que modera las afirmaciones de una clara superioridad.

Implicaciones y advertencias

El autor principal, el Dr. Adam Rodman, un médico del Centro Médico Beth Israel Deaconess, enfatizó que el experimento probó la capacidad de razonamiento médico basada en texto, no el espectro completo de la evaluación en la sala de emergencias. "El modelo no ve la angustia del paciente, el tono, el lenguaje corporal o otras señales del mundo real en las que confían los clínicos", dijo.

A pesar de esas limitaciones, Rodman vislumbra un "modelo de atención triádica" en el que los médicos, los pacientes y la IA colaboran. En ese contexto, el sistema podría proporcionar una segunda opinión rápida, especialmente cuando los clínicos necesitan tomar decisiones rápidas con datos limitados.

Los expertos, sin embargo, plantearon varias preocupaciones. La responsabilidad por los errores impulsados por la IA sigue siendo confusa, y la seguridad del paciente podría estar en peligro si los clínicos confían demasiado en las sugerencias algorítmicas. Los autores del estudio enfatizaron que la tecnología no está lista para ser desplegada de forma autónoma en los departamentos de emergencias.

Por ahora, el modelo o1 parece ser más adecuado como una herramienta auxiliar, que ofrece sugerencias diagnósticas rápidas que los médicos pueden verificar contra su propio juicio clínico. A medida que la IA sigue evolucionando, se necesitarán más ensayos con tamaños de muestra más grandes y una interacción en tiempo real con los pacientes para determinar si tales sistemas pueden aumentar de manera segura la atención de emergencia.

Estudio de Harvard encuentra que el modelo o1 de OpenAI supera a los médicos en el diagnóstico de triage en la sala de emergencias

Puntos clave

Diseño del estudio y resultados

Implicaciones y advertencias

También disponible en: