Jornalistas Científicos Descobrem que o ChatGPT Tem Dificuldades em Sumarizar com Precisão

Science journalists find ChatGPT is bad at summarizing scientific papers

Pontos principais

  • O ChatGPT recebeu notas médias baixas (2,26 para relevância, 2,14 para capacidade de persuasão) em uma escala de cinco pontos.
  • Apenas um resumo gerado pelo AI recebeu a nota máxima de 5; 30 receberam a nota mais baixa de 1.
  • Problemas comuns incluíram confundir correlação com causalidade, omitir contexto-chave e usar linguagem superestimada.
  • O modelo se sai bem na transcrição literal, mas falha em transmitir metodologia, limitações ou implicações mais amplas.
  • É necessária uma verificação de fatos extensiva, tornando os resumos assistidos por IA tão trabalhosos quanto a escrita manual.
  • Os jornalistas concluíram que o ChatGPT não atende aos padrões atuais de briefing científico.
  • Atualizações futuras significativas do modelo podem ser reavaliadas para um desempenho melhorado.

Um estudo realizado por jornalistas científicos para a AAAS examinou como o ChatGPT pode resumir artigos científicos. Os avaliadores consistentemente deram notas baixas para a relevância, a capacidade de persuasão e a precisão dos resumos gerados pelo AI. O modelo frequentemente confundiu correlação com causalidade, omitiu contextos cruciais e usou linguagem exagerada, como "revolucionário". Os jornalistas concluíram que o ChatGPT não atende aos padrões de qualidade necessários para briefings científicos e precisaria de uma verificação de fatos extensiva antes de ser utilizado.

Avaliação dos Resumos Gerados pelo ChatGPT

Jornalistas científicos encarregados de avaliar a capacidade do ChatGPT de resumir artigos científicos relataram um desempenho uniformemente baixo em vários critérios. Quando questionados se os resumos gerados pelo AI poderiam se integrar perfeitamente às linhas de briefing existentes, os avaliadores atribuíram uma nota média de 2,26 em uma escala de cinco pontos, onde 1 significa "não, de forma alguma" e 5 significa "absolutamente". Para a pergunta sobre o quão convincentes os resumos eram, a nota média caiu ligeiramente para 2,14. Apenas um resumo recebeu a nota máxima de 5 em qualquer uma das métricas, enquanto 30 receberam a nota mais baixa de 1.

Os feedbacks qualitativos destacaram problemas recorrentes. Os avaliadores observaram que o ChatGPT frequentemente confundia correlação com causalidade, deixava de fora o contexto essencial - como a lentidão típica dos atuadores macios - e tendia a superestimar os resultados, usando palavras-chave como "revolucionário" e "novo". Embora a solicitação ao modelo para evitar essa linguagem reduzisse a superestimação, outros problemas persistiram.

Limitações em Profundidade e Precisão

Os jornalistas observaram que o ChatGPT se sai bem em transcrever o texto literal de um artigo quando o material de origem falta nuances. No entanto, o modelo tem dificuldades em traduzir essas descobertas em um contexto mais amplo, falhando em discutir a metodologia, as limitações ou as implicações mais amplas. Essa fraqueza se torna especialmente aparente quando se resume artigos que apresentam múltiplos resultados, às vezes conflitantes, ou quando solicitado a mesclar dois estudos relacionados em um único resumo.

A verificação de fatos emergiu como uma grande preocupação. Os repórteres descreveram a necessidade de "verificação de fatos extensiva" para verificar o conteúdo gerado pelo AI, observando que usar o ChatGPT como ponto de partida poderia exigir tanto esforço quanto escrever um resumo do zero. Os jornalistas enfatizaram que a comunicação científica exige precisão e clareza, tornando qualquer lapso na confiabilidade dos fatos inaceitável.

Implicações para a Publicação Científica

No geral, os jornalistas da AAAS concluíram que a versão atual do ChatGPT não atende ao estilo e aos padrões necessários para resumos científicos em seu pacote de imprensa. Embora tenham reconhecido que atualizações futuras significativas do modelo podem melhorar o desempenho, recomendaram uma abordagem cautelosa e enfatizaram a importância da supervisão humana. O estudo se soma a um corpo mais amplo de pesquisas que mostram que as ferramentas de IA podem citar fontes incorretas com tanta frequência quanto 60 por cento do tempo, reforçando a necessidade de uma revisão editorial rigorosa ao integrar texto gerado por IA ao discurso científico.

#ChatGPT#sumarização de IA#jornalismo científico#AAAS#avaliação de pesquisa#verificação de fatos#comunicação científica#desempenho do modelo de linguagem

Também disponível em: