Modelos de lenguaje de IA luchan con la etiqueta de taarof persa, encuentra un estudio

When “no” means “yes”: Why AI chatbots can’t process Persian social etiquette

Puntos clave

  • TAAROFBENCH es el primer benchmark para evaluar el rendimiento de IA en la etiqueta de taarof persa.
  • Modelos importantes como GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 y Dorna obtuvieron resultados entre el 34% y el 42% correctos.
  • Los hablantes persas nativos lograron una tasa de éxito del 82% en el mismo benchmark.
  • Los modelos tienden a recurrir a la comunicación directa al estilo occidental, perdiendo las señales de delicadeza.
  • Los errores culturales podrían dañar las negociaciones, las relaciones y reforzar estereotipos.
  • Los investigadores piden datos de entrenamiento y métricas de evaluación culturalmente conscientes para IA.
  • El estudio fue liderado por Nikta Gohari Sadr de la Universidad de Brock con socios de la Universidad de Emory.
  • Los hallazgos destacan una brecha entre el comportamiento de IA y las expectativas de los usuarios persas.

Un nuevo estudio liderado por Nikta Gohari Sadr revela que los principales modelos de lenguaje de IA, incluyendo GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 y el modelo persa Dorna, tienen un rendimiento pobre en la práctica cultural persa de taarof, manejando correctamente solo entre el 34 y el 42 por ciento de los escenarios en comparación con el 82 por ciento de éxito de los hablantes nativos

Antecedentes y motivación

Los hablantes persas navegan por las interacciones diarias a través de una práctica cultural conocida como taarof, un intercambio ritualizado de ofertas, negaciones y insistencia educada. Malentender esta etiqueta puede generar fricciones sociales, especialmente a medida que los modelos de lenguaje de IA se integran cada vez más en las herramientas de comunicación utilizadas en todo el mundo.

Diseño del estudio y benchmark

Los investigadores liderados por Nikta Gohari Sadr de la Universidad de Brock, junto con colaboradores de la Universidad de Emory y otras instituciones, crearon TAAROFBENCH, el primer benchmark que mide específicamente cómo reproducen los sistemas de IA el taarof. El benchmark define escenarios detallados que incluyen entorno, ubicación, roles, contexto y enunciados del usuario, lo que permite una evaluación sistemática de las respuestas del modelo.

Modelos evaluados

El estudio examinó una serie de modelos de lenguaje grande contemporáneos: GPT-4o de OpenAI, Claude 3.5 Haiku de Anthropic, Llama 3 de Meta, V3 de DeepSeek y Dorna, una variante persa de Llama 3.

Hallazgos clave

En todos los modelos evaluados, el manejo correcto de los escenarios de taarof varió entre el 34 y el 42 por ciento. En contraste, los hablantes persas nativos lograron una tasa de éxito del 82 por ciento en las mismas tareas. Los resultados muestran que estos modelos recurren a la comunicación directa al estilo occidental, a menudo perdiendo las señales de delicadeza que definen los intercambios educados persas.

Implicaciones

Los investigadores advierten que los errores culturales en entornos de alto riesgo, como las negociaciones o la construcción de relaciones, podrían arruinar los resultados, reforzar estereotipos y limitar la eficacia de las herramientas de IA en contextos multilingües. El estudio subraya la necesidad de que los sistemas de IA incorporen datos de entrenamiento y métricas de evaluación específicas de la cultura para evitar puntos ciegos.

Direcciones futuras

La introducción de TAAROFBENCH proporciona un camino concreto para que los desarrolladores prueben y mejoren el rendimiento del modelo en la etiqueta persa. El trabajo en curso puede expandir el benchmark a otras prácticas culturales, fomentando una conciencia más amplia de la diversidad lingüística en el desarrollo de IA.

#IA#modelos de lenguaje#persa#taarof#IA cultural#TAAROFBENCH#Nikta Gohari Sadr#GPT-4o#Claude 3.5 Haiku#Llama 3#DeepSeek V3#Dorna

También disponible en: