Los scrapers de IA se están quedando sin espacio a medida que las restricciones cierran la red

July 23, 2024

ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab

Los raspadores de inteligencia artificial se enfrentan cada vez más a entornos en línea hostiles a medida que las fuentes de datos se agotan.

Anteriormente, la búsqueda de datos, también conocida como scraping, implicaba que se podían extraer grandes cantidades de texto, imágenes y vídeos de Internet sin demasiados problemas. Los modelos de IA podían entrenarse con esa fuente aparentemente infinita, pero ese ya no es el caso.

Un estudio de un grupo de expertos en investigación de IA Iniciativa de procedencia de datosllamado “Consent In Crisis”, ha encontrado un entorno hostil que ahora espera a los raspadores de sitios web, especialmente a aquellos para el desarrollo de IA generativa.

Los investigadores analizaron los dominios utilizados en tres de los conjuntos de datos más importantes utilizados para entrenar modelos de IA y esos datos ahora están más restringidos que nunca.

Se evaluaron 14.000 dominios web y se descubrió una “crisis emergente en el consentimiento” a medida que los editores en línea reaccionaban a la presencia de rastreadores y la recolección de datos. Los investigadores describieron en los tres conjuntos de datos, conocidos como C4, RefinedWeb y Dolman, que alrededor del 5% de todos los datos y el 25% del contenido de las mejores fuentes tenían restricciones aplicadas.

En particular, los rastreadores GPTBot y Google-Extended de OpenAI provocaron una reacción de los sitios web que cambiaron las restricciones de su archivo robot.txt. El estudio descubrió que entre el 20 y el 33 por ciento de los principales dominios web han introducido restricciones extensas a los rastreadores, en comparación con una cifra mucho menor a principios del año pasado.

Rastreos duros que resultan en prohibiciones totales

Sobre toda la base de dominios, entre el 5 y el 7 % han aplicado restricciones, frente a solo el 1 % en el mismo período.

Se observó que muchos sitios web habían cambiado sus términos de servicio para prohibir por completo el rastreo y la extracción de contenido para su uso en IA generativa, pero no en la medida de las restricciones en robot.txt.

Es posible que las empresas de inteligencia artificial hayan desperdiciado tiempo y recursos debido a un rastreo excesivo que probablemente no era necesario. Los investigadores demostraron que, si bien alrededor del 40 % de los sitios principales utilizados en los tres conjuntos de datos estaban relacionados con noticias, más del 30 % de las consultas de ChatGPT se relacionaban con escritura creativa, en comparación con solo el 1 % que incluía noticias.

Otras solicitudes notables incluyeron traducción, ayuda con la codificación y juegos de roles sexuales.

Crédito de la imagen: vía Ideogram

Fuente

Los scrapers de IA se están quedando sin espacio a medida que las restricciones cierran la red

Rastreos duros que resultan en prohibiciones totales

Las ganancias de Disney Studio se disparan con ‘Moana 2.’ Huracanes...

Encuesta de salida de Delhi 2025 Resultado: La encuesta JVC-Times ahora...

Kultida Woods, madre de Tiger Woods, muere a los 78 años

Por qué la NFL contrató a Kyle Smith como su nuevo...

Sonya Walger, que perdió a casa en LA Fires, libera el...