Las compañías de inteligencia artificial (IA) tienen un apetito insaciable por datos para entrenar sus modelos. Una de las técnicas más utilizadas para satisfacer esta necesidad es el web scraping, que permite extraer información pública de páginas web sin el consentimiento de los creadores o licenciatarios del contenido.
Reddit ha decidido tomar medidas contra el web scraping no deseado. La plataforma, conocida por albergar millones de conversaciones en subreddits sobre diversos temas, implementará un cambio significativo en su backend. Específicamente, ajustará el protocolo de exclusión del archivo robots.txt en las próximas semanas para impedir el acceso de compañías no autorizadas a su contenido público.
Este movimiento busca restringir el acceso al contenido de Reddit para aquellos actores que no cuenten con un acuerdo formal con la plataforma. En los últimos meses, grandes nombres como OpenAI, propietario de ChatGPT, y Google, creador de Gemini, han establecido alianzas con Reddit. En resumen, sin un acuerdo formal, no se permitirá el acceso a los datos.
Los cambios anunciados reflejan una actualización en la Política de contenido público de Reddit. La plataforma asegura que seguirá ofreciendo acceso a investigadores, académicos, moderadores y organizaciones como Internet Archive, que se dedica a preservar contenidos en línea.
En el contexto actual de la IA, la necesidad de datos abarca no solo texto, sino también imágenes, música y vídeos. Durante mucho tiempo, las empresas han utilizado técnicas de web scraping para alimentar sus modelos con diversos tipos de contenido. Sin embargo, hay preguntas sobre la procedencia ética y legal de estos datos. Firmas como OpenAI mencionan que utilizan contenido con licencia o disponible públicamente, pero esto no ha evitado conflictos legales, como demandas por infracción de derechos de autor.
En definitiva, estamos siendo testigos de una batalla en tiempo real por los datos que alimentan la IA. Con el tiempo, veremos cómo evolucionan estas dinámicas y cuáles serán las regulaciones y acuerdos que marcarán el futuro de la recopilación de datos en línea.
Hace poco, grandes discográficas lanzaban una demanda contra empresas de IA por entrenarlas usando canciones protegidas con copyright.
En lo que queda de años parece que este tipo de demandas irán en aumento y lo que está por ver cómo actúa la justicia y de qué parte se pone en un tema tan delicado.