Modelos de Linguagem de IA Têm Dificuldade com a Etiqueta Taarof Persa, Conclui Estudo

Pontos principais
- TAAROFBENCH é o primeiro benchmark para avaliar o desempenho de IA no etiquette taarof persa.
- Modelos importantes como GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 e Dorna pontuaram entre 34% e 42% correto.
- Falantes nativos de persa alcançaram uma taxa de sucesso de 82% no mesmo benchmark.
- Modelos tendem a recorrer à comunicação direta, no estilo ocidental, perdendo pistas sutis e polidas.
- Erros culturais podem prejudicar negociações, relacionamentos e reforçar estereótipos.
- Pesquisadores defendem dados de treinamento e métricas de avaliação culturalmente conscientes para IA.
- O estudo foi liderado por Nikta Gohari Sadr, da Universidade Brock, com parceiros da Universidade Emory.
- As descobertas destacam uma lacuna entre o comportamento da IA e as expectativas dos usuários que falam persa.
Um novo estudo liderado por Nikta Gohari Sadr revela que importantes modelos de linguagem de IA, incluindo GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 e o Dorna ajustado para o persa, performam mal na prática cultural persa de taarof, lidando corretamente apenas com 34 a 42 por cento dos cenários, em comparação com a taxa de sucesso de 82 por cento dos falantes nativos.
Fundo e Motivação
Os falantes de persa navegam pelas interações diárias por meio de uma prática cultural conhecida como taarof, uma troca ritualizada de ofertas, recusas e insistência polida. Mal-entender essa etiqueta pode levar a atritos sociais, especialmente à medida que os modelos de linguagem de IA se tornam cada vez mais integrados a ferramentas de comunicação usadas em todo o mundo.
Desenho do Estudo e Benchmark
Pesquisadores liderados por Nikta Gohari Sadr, da Universidade Brock, juntamente com colaboradores da Universidade Emory e outras instituições, criaram o TAAROFBENCH, o primeiro benchmark que mede especificamente como os sistemas de IA reproduzem o taarof. O benchmark define cenários detalhados que incluem ambiente, localização, papéis, contexto e enunciados do usuário, permitindo uma avaliação sistemática das respostas do modelo.
Modelos Avaliados
O estudo examinou uma variedade de modelos de linguagem de grande escala contemporâneos: GPT-4o da OpenAI, Claude 3.5 Haiku da Anthropic, Llama 3 da Meta, V3 da DeepSeek e Dorna, uma variante ajustada para o persa da Llama 3.
Principais Conclusões
Em todos os modelos testados, o manejo correto de cenários de taarof variou de 34 por cento a 42 por cento. Em contraste, os falantes nativos de persa alcançaram uma taxa de sucesso de 82 por cento nas mesmas tarefas. Os resultados mostram que esses modelos recorrem à comunicação direta, no estilo ocidental, frequentemente perdendo as sutis pistas que definem as trocas polidas persas.
Implicações
Os pesquisadores alertam que erros culturais em contextos de alta consequência — como negociações ou construção de relacionamentos — podem descarrilar os resultados, reforçar estereótipos e limitar a eficácia das ferramentas de IA em contextos multilíngues. O estudo destaca a necessidade de os sistemas de IA incorporarem dados de treinamento e métricas de avaliação específicos da cultura para evitar pontos cegos.
Direções Futuras
A introdução do TAAROFBENCH fornece um caminho concreto para os desenvolvedores testarem e melhorarem o desempenho do modelo no etiquette persa. Trabalhos em andamento podem expandir o benchmark para outras práticas culturais, incentivando uma maior conscientização sobre a diversidade linguística no desenvolvimento de IA.