Medios de comunicación importantes bloquean la Wayback Machine por temores de extracción de datos con IA

Al menos 23 organizaciones de noticias prominentes, incluyendo The New York Times y USA Today, han comenzado a bloquear el rastreador de la Wayback Machine de Internet Archive. Los editores afirman que el archivo está siendo utilizado por empresas de inteligencia artificial para recopilar artículos con copyright para entrenar modelos de lenguaje, una práctica que afirman viola la ley de derechos de autor. Este movimiento amenaza el papel de la Wayback Machine como registro público de la web, lo que genera debate entre periodistas, tecnólogos y operadores del archivo sobre cómo equilibrar la protección de contenido con la preservación histórica.

Un grupo creciente de sitios web de noticias líderes está cortando el acceso a la Wayback Machine de Internet Archive, citando preocupaciones de que el servicio alimenta la extracción de contenido impulsada por IA. Originality AI, una empresa que detecta texto generado por IA, identificó 23 organizaciones que han bloqueado el rastreador web del archivo. Entre ellas se encuentran The New York Times, confirmado por un informe de Nieman Lab, y USA Today, que recientemente dependió de la Wayback Machine para informes de investigación sobre Inmigración y Control de Aduanas de EE. UU.

El director de la Wayback Machine, Mark Graham, llamó a la paradoja "irónica": las mismas publicaciones que dependen del archivo para verificar sus propias historias ahora están impidiendo que acceda a su contenido. Graham le dijo a Wired, "Pueden reunir su investigación de historias porque la Wayback Machine existe. Al mismo tiempo, están bloqueando el acceso".

El núcleo del conflicto no radica en la evasión de pago, sino en la utilidad del archivo para entrenar grandes modelos de lenguaje. Un portavoz de The New York Times, Graham James, advirtió que los artículos del periódico están siendo recopilados desde la Wayback Machine por empresas de IA, "en violación de la ley de derechos de autor para competir directamente con nosotros". Quejas similares han surgido de otros editores y de plataformas como Reddit, que también prohibió al rastreador por la misma razón.

Los observadores de la industria señalan que la Wayback Machine sigue siendo el repositorio más completo de contenido web histórico, lo que la convierte en un objetivo atractivo para los desarrolladores de IA que buscan vastos corpus de texto. Si la tendencia de bloqueo se acelera, la capacidad del archivo para preservar un registro público del discurso en línea podría erosionarse, limitando la capacidad de los investigadores para rastrear cambios, hacer que las instituciones rindan cuentas y estudiar la evolución de los medios.

Los periodistas han respondido, lanzando una petición titulada "Los periodistas aplauden el papel de Internet Archive en la preservación del registro público", que ha reunido más de 100 firmas. La petición subraya la creencia de que la archivación sin restricciones es esencial para una sociedad transparente.

El diálogo entre Internet Archive y los editores preocupados continúa, aunque no ha surgido una resolución concreta. Las partes interesadas esperan encontrar un término medio que salvaguarde el material con copyright mientras preserva el valor histórico de la web.

Medios de comunicación importantes bloquean la Wayback Machine por temores de extracción de datos con IA

Puntos clave

También disponible en: