Periodistas científicos encuentran que ChatGPT tiene dificultades con resúmenes precisos

Science journalists find ChatGPT is bad at summarizing scientific papers

Puntos clave

  • ChatGPT recibió calificaciones promedio bajas (2.26 para relevancia, 2.14 para atractivo) en una escala de cinco puntos.
  • Solo un resumen generado por IA obtuvo la calificación más alta de 5; 30 recibieron la calificación más baja de 1.
  • Problemas comunes incluyeron confundir la correlación con la causalidad, omitir contexto clave y usar lenguaje exagerado.
  • El modelo se desempeña bien en la transcripción literal pero falla en transmitir la metodología, las limitaciones o las implicaciones más amplias.
  • Se requiere una verificación exhaustiva de hechos, lo que hace que los resúmenes asistidos por IA sean tan laboriosos como la escritura manual.
  • Los periodistas concluyeron que ChatGPT no cumple con los estándares actuales de informes científicos.
  • Es posible que las actualizaciones futuras importantes del modelo sean reevaluadas para un mejor desempeño.

Un estudio de periodistas científicos para la AAAS examinó cómo bien ChatGPT puede resumir artículos científicos. Los revisores consistentemente dieron a los resúmenes generados por IA calificaciones bajas para relevancia, atractivo y precisión factual. El modelo a menudo confundió la correlación con la causalidad, omitió contexto crucial y usó lenguaje exagerado como "revolucionario". Los periodistas concluyeron que ChatGPT no cumple con los estándares de calidad requeridos para informes científicos y necesitaría una verificación exhaustiva de hechos antes de su uso.

Evaluación de resúmenes generados por ChatGPT

Periodistas científicos encargados de evaluar la capacidad de ChatGPT para resumir artículos científicos informaron un desempeño uniformemente bajo en varios criterios. Cuando se les preguntó si los resúmenes producidos por IA podrían integrarse sin problemas en las líneas de informe existentes, los evaluadores asignaron una calificación promedio de 2.26 en una escala de cinco puntos, donde 1 significa "no, en absoluto" y 5 significa "absolutamente". Para la pregunta de cuán atractivos eran los resúmenes, la calificación promedio disminuyó ligeramente a 2.14. Solo un resumen obtuvo la calificación más alta de 5 en cualquiera de las métricas, mientras que 30 recibieron la calificación más baja de 1.

La retroalimentación cualitativa destacó problemas recurrentes. Los revisores notaron que ChatGPT frecuentemente confundió la correlación con la causalidad, omitió antecedentes esenciales - como la lentitud típica de los actuadores suaves - y tendió a exagerar los resultados, espolvoreando palabras clave como "revolucionario" y "nuevo". Aunque solicitar al modelo que evitara dicho lenguaje redujo la exageración, otros problemas persistieron.

Límites en profundidad y precisión

Los periodistas observaron que ChatGPT sobresale en la transcripción literal del texto de un artículo cuando el material fuente carece de matices. Sin embargo, el modelo lucha por traducir esos hallazgos en un contexto más amplio, fallando en discutir la metodología, las limitaciones o las implicaciones más amplias. Esta debilidad se vuelve especialmente aparente cuando se resumen artículos que presentan múltiples resultados, a veces conflictivos, o cuando se les pide que fusionen dos estudios relacionados en un solo resumen.

La verificación de hechos surgió como una preocupación importante. Los reporteros describieron la necesidad de "una verificación exhaustiva de hechos" para verificar el contenido generado por IA, señalando que usar ChatGPT como punto de partida podría demandar tanto esfuerzo como escribir un resumen desde cero. Los periodistas enfatizaron que la comunicación científica exige precisión y claridad, lo que hace que cualquier lapsus en la confiabilidad factual sea inaceptable.

Implicaciones para la publicación científica

En general, los periodistas de la AAAS concluyeron que la versión actual de ChatGPT no satisface el estilo y los estándares requeridos para los resúmenes científicos en su paquete de prensa. Aunque reconocieron que las actualizaciones futuras importantes del modelo podrían mejorar el desempeño, recomendaron un enfoque cauteloso y enfatizaron la importancia de la supervisión humana. El estudio se suma a un cuerpo más amplio de investigación que muestra que las herramientas de IA pueden citar fuentes incorrectas con tanta frecuencia como el 60 por ciento del tiempo, lo que refuerza la necesidad de una revisión editorial rigurosa al integrar texto generado por IA en el discurso científico.

#ChatGPT#resumen de IA#periodismo científico#AAAS#evaluación de investigación#verificación de hechos#comunicación científica#desempeño del modelo de lenguaje

También disponible en: