Motores de Busca Impulsionados por IA Favorecem Fontes Menos Populares, Estudo Descobre

Pontos principais
- Pesquisadores compararam links tradicionais do Google com Visões de IA do Google, Gemini-2.5-Flash e GPT-4o.
- Consultas de teste vieram do WildChat, AllSides e buscas de produtos da Amazon.
- Ferramentas de busca de IA frequentemente citam sites fora dos 1.000 principais do Tranco.
- 53 por cento das fontes das Visões de IA do Google não estavam nos 10 principais links do Google para a mesma consulta.
- 40 por cento dessas fontes estavam ausentes dos 100 principais links do Google.
- Descobertas destacam uma mudança para fontes menos populares nos resultados de busca impulsionados por IA.
- Implicações incluem uma exposição mais ampla de conteúdo, mas também preocupações sobre a autoridade das fontes.
Pesquisadores da Universidade Ruhr e do Instituto Max Planck examinaram como as ferramentas de busca de IA diferem dos resultados tradicionais do Google. Sua análise de Visões de IA do Google, Gemini-2.5-Flash e GPT-4o mostrou que esses sistemas regularmente citam sites que têm classificações mais baixas em métricas de popularidade, como o Tranco, muitas vezes ausentes dos 10 ou mesmo dos 100 primeiros links do Google para as mesmas consultas.
Fundo e Motivação
Desde o lançamento das Visões de IA do Google, a conscientização pública cresceu em torno das maneiras pelas quais os resultados de busca de IA podem divergir da lista convencional de links produzida por motores de busca tradicionais. Para quantificar essa divergência, pesquisadores da Universidade Ruhr em Bochum e do Instituto Max Planck para Sistemas de Software conduziram um estudo sistemático.
Metodologia
A equipe comparou os resultados de links tradicionais do Google com as saídas geradas por IA de três sistemas: Visões de IA do Google, Gemini-2.5-Flash e GPT-4o da OpenAI (tanto no modo de busca na web quanto na variante que invoca uma ferramenta de busca separada). As consultas de teste foram extraídas de várias fontes, incluindo perguntas específicas submetidas ao ChatGPT no conjunto de dados WildChat, tópicos políticos listados no AllSides e os produtos mais procurados da Amazon.
Métricas de Popularidade
Para avaliar a popularidade das fontes, os pesquisadores usaram o sistema de classificação de domínios Tranco, que classifica sites com base no tráfego e outros fatores. Eles examinaram se os domínios citados estavam dentro dos 1.000, 1.000.000 ou além desses limites.
Principais Descobertas
A análise revelou um padrão consistente: as ferramentas de busca impulsionadas por IA tendiam a citar sites menos populares em comparação com os resultados tradicionais do Google. Por exemplo, a fonte mediana referenciada pelo Gemini ficava fora dos 1.000 principais do Tranco em todas as consultas. No geral, a maioria das fontes referenciadas pelas Visões de IA do Google não aparecia nos 10 principais links do Google para a mesma consulta, e muitas estavam ausentes da lista dos 100 principais também.
Especificamente, 53 por cento das fontes citadas pelas Visões de IA do Google não estavam presentes nos 10 principais links do Google, e 40 por cento não apareciam nem nos 100 principais links do Google. Tendências semelhantes foram observadas para o Gemini e o GPT-4o, indicando que os motores de busca gerativos frequentemente extraem de domínios que não surgiriam em uma busca orgânica padrão.
Implicações
Essas descobertas sugerem que a busca impulsionada por IA reorganiza o panorama de informações, expondo os usuários a conteúdo de sites menos visitados. Embora isso possa ampliar as perspectivas, também levanta questões sobre a confiabilidade e autoridade das fontes apresentadas. A pesquisa destaca a necessidade de uma maior investigação sobre como os modelos gerativos selecionam e classificam informações, especialmente à medida que a busca baseada em IA se torna mais comum.
Conclusão
O estudo fornece evidências empíricas de que os motores de busca impulsionados por IA divergem da busca tradicional na popularidade das fontes citadas. À medida que a IA gerativa continua a se integrar às experiências de busca, entender essas diferenças será crucial para os usuários, desenvolvedores e formuladores de políticas.