Modelos de lenguaje de IA luchan con la etiqueta de taarof persa, encuentra un estudio

Puntos clave
- TAAROFBENCH es el primer benchmark para evaluar el rendimiento de IA en la etiqueta de taarof persa.
- Modelos importantes como GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 y Dorna obtuvieron resultados entre el 34% y el 42% correctos.
- Los hablantes persas nativos lograron una tasa de éxito del 82% en el mismo benchmark.
- Los modelos tienden a recurrir a la comunicación directa al estilo occidental, perdiendo las señales de delicadeza.
- Los errores culturales podrían dañar las negociaciones, las relaciones y reforzar estereotipos.
- Los investigadores piden datos de entrenamiento y métricas de evaluación culturalmente conscientes para IA.
- El estudio fue liderado por Nikta Gohari Sadr de la Universidad de Brock con socios de la Universidad de Emory.
- Los hallazgos destacan una brecha entre el comportamiento de IA y las expectativas de los usuarios persas.
Un nuevo estudio liderado por Nikta Gohari Sadr revela que los principales modelos de lenguaje de IA, incluyendo GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 y el modelo persa Dorna, tienen un rendimiento pobre en la práctica cultural persa de taarof, manejando correctamente solo entre el 34 y el 42 por ciento de los escenarios en comparación con el 82 por ciento de éxito de los hablantes nativos
Antecedentes y motivación
Los hablantes persas navegan por las interacciones diarias a través de una práctica cultural conocida como taarof, un intercambio ritualizado de ofertas, negaciones y insistencia educada. Malentender esta etiqueta puede generar fricciones sociales, especialmente a medida que los modelos de lenguaje de IA se integran cada vez más en las herramientas de comunicación utilizadas en todo el mundo.
Diseño del estudio y benchmark
Los investigadores liderados por Nikta Gohari Sadr de la Universidad de Brock, junto con colaboradores de la Universidad de Emory y otras instituciones, crearon TAAROFBENCH, el primer benchmark que mide específicamente cómo reproducen los sistemas de IA el taarof. El benchmark define escenarios detallados que incluyen entorno, ubicación, roles, contexto y enunciados del usuario, lo que permite una evaluación sistemática de las respuestas del modelo.
Modelos evaluados
El estudio examinó una serie de modelos de lenguaje grande contemporáneos: GPT-4o de OpenAI, Claude 3.5 Haiku de Anthropic, Llama 3 de Meta, V3 de DeepSeek y Dorna, una variante persa de Llama 3.
Hallazgos clave
En todos los modelos evaluados, el manejo correcto de los escenarios de taarof varió entre el 34 y el 42 por ciento. En contraste, los hablantes persas nativos lograron una tasa de éxito del 82 por ciento en las mismas tareas. Los resultados muestran que estos modelos recurren a la comunicación directa al estilo occidental, a menudo perdiendo las señales de delicadeza que definen los intercambios educados persas.
Implicaciones
Los investigadores advierten que los errores culturales en entornos de alto riesgo, como las negociaciones o la construcción de relaciones, podrían arruinar los resultados, reforzar estereotipos y limitar la eficacia de las herramientas de IA en contextos multilingües. El estudio subraya la necesidad de que los sistemas de IA incorporen datos de entrenamiento y métricas de evaluación específicas de la cultura para evitar puntos ciegos.
Direcciones futuras
La introducción de TAAROFBENCH proporciona un camino concreto para que los desarrolladores prueben y mejoren el rendimiento del modelo en la etiqueta persa. El trabajo en curso puede expandir el benchmark a otras prácticas culturales, fomentando una conciencia más amplia de la diversidad lingüística en el desarrollo de IA.