Estudio relaciona datos de entrenamiento de baja calidad con disminución del rendimiento de los grandes modelos de lenguaje

Puntos clave
- Investigadores de Texas A&M, la Universidad de Texas y la Universidad de Purdue proponen la "hipótesis de la pérdida de capacidad cognitiva de los modelos de lenguaje".
- La hipótesis sugiere que el entrenamiento continuo con texto de baja calidad de la web puede causar un declive duradero en el rendimiento de los grandes modelos de lenguaje.
- Un conjunto de datos de 100 millones de tweets de HuggingFace se utilizó para separar el contenido "de baja calidad" del de mayor calidad.
- Los tweets "de baja calidad" se identificaron por alta participación pero longitud corta, así como por la clasificación de GPT-4o de temas superficiales.
- Las clasificaciones automatizadas de basura coincidieron con las evaluaciones de los estudiantes de posgrado el 76 por ciento de las veces.
- El estudio proporciona un enfoque reproducible para detectar datos de entrenamiento de baja calidad.
- Los hallazgos pueden influir en la curación futura de conjuntos de datos y las prácticas de seguridad de la inteligencia artificial.
Investigadores de Texas A&M, la Universidad de Texas y la Universidad de Purdue han introducido la hipótesis de la "pérdida de capacidad cognitiva de los modelos de lenguaje", que sugiere que el entrenamiento continuo con texto de baja calidad de la web puede causar un declive cognitivo duradero en los grandes modelos de lenguaje. Su artículo de preimpresión analiza un conjunto de datos de HuggingFace de 100 millones de tweets, separando los tweets "de baja calidad" - identificados por alta participación pero longitud corta o contenido superficial y de clics - de muestras de mayor calidad. Los resultados iniciales muestran un 76 por ciento de acuerdo entre las clasificaciones automatizadas y las evaluaciones de estudiantes de posgrado, destacando los posibles riesgos de la ingesta indiscriminada de datos para los sistemas de inteligencia artificial.
Antecedentes
Basándose en investigaciones previas que relacionan el consumo excesivo de contenido trivial en línea con problemas de atención y memoria en humanos, un equipo de académicos de Texas A&M, la Universidad de Texas y la Universidad de Purdue propuso un efecto comparable para la inteligencia artificial. Lo denominan la "hipótesis de la pérdida de capacidad cognitiva de los modelos de lenguaje", que plantea que la exposición continua a texto de baja calidad puede degradar las capacidades cognitivas de un modelo con el tiempo.
Metodología
Los investigadores compilaron un corpus de 100 millones de tweets del conjunto de datos de HuggingFace. Para crear un conjunto de datos "de baja calidad", seleccionaron tweets que combinaban métricas de participación altas (me gustas, retweets, respuestas, citas) con longitud corta, razonando que dichos posts atraen la atención mientras ofrecen poco contenido sustantivo. Un segundo enfoque de identificación de basura empleó una llamada a GPT-4o para flagrar tweets que cubrían temas superficiales - como teorías de la conspiración, afirmaciones exageradas, afirmaciones no respaldadas o lenguaje de clics sensacionalista. Una muestra aleatoria de estas clasificaciones de GPT-4o se verificó contra evaluaciones de tres estudiantes de posgrado, logrando una coincidencia del 76 por ciento.
Hallazgos
El análisis demuestra que es factible distinguir entre texto de alta participación y bajo valor y contenido más sustantivo dentro de una gran colección de tweets. La concordancia del 76 por ciento sugiere que los modelos de lenguaje pueden flagrar de manera confiable los datos "de baja calidad" cuando se guían por llamadas dirigidas. Si bien el estudio aún no cuantifica el declive exacto del rendimiento en los modelos de lenguaje entrenados en el corpus de basura identificado, establece un marco para futuras experimentaciones sobre la hipotética degradación cognitiva.
Implicaciones
Si la hipótesis de la pérdida de capacidad cognitiva se mantiene, es posible que los desarrolladores de inteligencia artificial deban curar los conjuntos de datos de entrenamiento con más cuidado, evitando la dependencia excesiva de contenido en línea popular pero superficial. El trabajo también introduce un método reproducible para aislar texto de baja calidad, lo que podría informar las tuberías de limpieza de conjuntos de datos y las estrategias de seguridad de la inteligencia artificial. Al relacionar la investigación sobre el comportamiento humano con las prácticas de aprendizaje automático, el artículo fomenta una discusión más amplia sobre las consecuencias éticas y relacionadas con el rendimiento de la selección de datos en el desarrollo de la inteligencia artificial.