De nuevo a una de mis aficiones
Anuncios
Mientras que las IA inglesas casi siempre consumen mucho inglés en línea sin permiso, existe un problema para las IA danesas: informa Bloomberg. La mayoría de los sitios web daneses parecen estar sujetos a una estricta protección de derechos de autor. La legislación danesa dificulta mucho el tipo de robo sin recurso que las empresas de IA de Silicon Valley logran. Los datos y las leyes gubernamentales son de dominio público. Pero ese idioma oficial danés está demasiado alejado de la forma en que la gente realmente habla y escribe para cumplir esa función. La respuesta son los caballos.
Este contraste es importante. En inglés, muchas IAs han sido entrenadas con una enorme cantidad de contenido extraído libremente de sitios web, blogs, foros y artículos sin que los creadores originales dieran su consentimiento. Este tipo de recopilación de datos ha generado controversias éticas y demandas judiciales. Pero en danés, los desarrolladores enfrentan un muro legal más firme. Eso significa que necesitan encontrar fuentes alternativas de lenguaje real. ¿Dónde buscar entonces?
Por razones que no están del todo claras, la web danesa se ha desarrollado de tal manera que un foro de discusión sobre caballos – heste-nettet.dk – se ha convertido en uno de los foros más populares y utilizados en el idioma. Se trata principalmente de caballos, pero debido a que es tan grande, ha suscitado preguntas, respuestas y conversaciones sobre una amplia gama de temas. Parece ser una especie de Reddit danés, solo que los caballos siempre son el gran queso o los grandes tipos del campus en el foro. En todo caso, parece menospreciarlo. Cuando visité el sitio intentando utilizar mi simple comprensión del inglés antiguo, parecía seguir estando muy centrado en los caballos y la equitación. El resultado de todo esto es que es probable que la IA danesa tenga un fuerte sesgo hacia los caballos y los temas relacionados con los caballos.
Y eso tiene consecuencias. Si los modelos de IA daneses se entrenan mayoritariamente en este foro, desarrollarán una comprensión del lenguaje cotidiano que estará inevitablemente teñida por ese contexto ecuestre. Esto podría hacer que, por ejemplo, las respuestas generadas por una IA danesa tiendan a usar metáforas o expresiones relacionadas con caballos, o incluso presenten un vocabulario específico de ese entorno, lo que no representa necesariamente al hablante danés promedio. El contexto importa en la formación de estos modelos, y si la fuente principal de datos se centra en caballos, eso influye.
De nuevo en el mundo de habla inglesa, muchos editores están tomando medidas en la actualidad para evitar que las empresas de IA recopilen su contenido. Aquí hay una pequeña anécdota sobre cómo sucedió. Cuando me enteré de este bloqueo, pensé que deberíamos bloquearlos también. Para anticipar las preguntas groseras que a menudo encuentro en este frente, no, no voy a esperar un cheque de once dólares. Desde el lado práctico de los derechos de uso o el dinero, no podría importarme menos. Sin embargo, en principio creo que siempre debemos hacer un esfuerzo dada la magnitud del acuerdo al que hemos llegado.
Y este es un punto clave: el debate ya no es sólo legal, sino también moral. ¿Es correcto que empresas multimillonarias extraigan sin autorización el trabajo de miles de personas para entrenar modelos que, eventualmente, podrían reemplazar esos mismos trabajos? Aunque el dinero no sea el incentivo para todos, la falta de consentimiento es lo que más preocupa. Por eso, algunos deciden tomar medidas incluso simbólicas.
Con la mayoría de los tipos de raspado digital, un creador de sitios web puede poner algún tipo de nota digital en la pila que indique a los bots que no se coman esa pila de contenido. Por ejemplo, puedes decirle a Google que no escanee tu sitio web en busca de su motor de búsqueda. Pocas personas lo hacen por razones obvias. Pero puedes hacerlo si quieres. En lo que respecta a la gente de IA, es una historia completamente diferente.
Los bots diseñados específicamente para entrenar modelos de lenguaje no siempre respetan esas señales digitales. A diferencia de Google, cuyo modelo de negocio depende de la confianza pública, muchas empresas de IA emergentes o incluso grandes jugadores tecnológicos prefieren pedir perdón antes que permiso. Esto crea una asimetría peligrosa, donde el creador individual tiene pocas herramientas reales para proteger su trabajo, mientras que las grandes corporaciones pueden acceder a todo con unos cuantos scripts bien diseñados.
Los editores que impiden que los bots de IA recopilen sus sitios web deben hacer todo lo posible para detenerlos. Simplemente decirles que se salten tu sitio web no funcionará. ¿Por qué? Porque nadie quiere robar su contenido para construir modelos de IA que puedan convertir a otros en multimillonarios. En otras palabras, la idea de que la IA se basa en datos que los creadores de IA no tienen permiso para usar no es teórica. Nadie quiere que eso suceda. Los grandes actores invierten una buena cantidad de esfuerzo y gasto para evitarlo. Es la diferencia entre colocar un cartel de «No solicitar» e instalar medidas de seguridad estrictas para mantener a la gente fuera.
La analogía es clara. Colocar un aviso que diga “por favor, no copies mi contenido” en internet tiene tanto efecto como poner una nota en tu puerta que diga “no entren ladrones”. Si alguien realmente quiere tu contenido, y tiene los medios para hacerlo, va a ignorar esa solicitud. Por eso, algunos medios han optado por blindarse con firewalls, bloquear IPs sospechosas, ofuscar el código de sus sitios o incluso cerrar por completo el acceso a ciertos rastreadores. Es un conflicto en pleno desarrollo.
Para nosotros, el esfuerzo y el tiempo fueron prohibitivos. No importa… Fue simplemente una idea para mostrar cierta solidaridad con la causa anti-IA y antirrobo. Sin embargo, te da una idea de la ética y el estatus de esa nueva industria.
La industria de la IA sigue creciendo a una velocidad increíble. Pero también enfrenta un creciente escrutinio. Gobiernos, creadores, periodistas y usuarios se preguntan si esta nueva era tecnológica está construida sobre principios justos, o si simplemente reproduce, a gran escala, viejas dinámicas de explotación disfrazadas de innovación. El caso de Dinamarca, con su foro de caballos como fuente principal de lenguaje, es casi cómico en la superficie, pero profundamente ilustrativo en el fondo. Muestra cómo la disponibilidad o la falta de datos puede alterar la naturaleza de una IA —y cómo la falta de regulación clara deja a muchos creadores a merced de intereses poderosos.