De nuevo a una de mis aficiones

Mientras que las IA inglesas casi siempre consumen mucho inglés en línea sin permiso, existe un problema para las IA danesas: informa Bloomberg. La mayoría de los sitios web daneses parecen estar sujetos a una estricta protección de derechos de autor. La legislación danesa dificulta mucho el tipo de robo sin recurso que las empresas de IA de Silicon Valley logran. Los datos y las leyes gubernamentales son de dominio público. Pero ese idioma oficial danés está demasiado alejado de la forma en que la gente realmente habla y escribe para cumplir esa función. La respuesta son los caballos.

Anúncios

Por razones que no están del todo claras, la web danesa se ha desarrollado de tal manera que un foro de discusión sobre caballos – heste-nettet.dk – se ha convertido en uno de los foros más populares y utilizados en el idioma. Se trata principalmente de caballos, pero debido a que es tan grande, ha suscitado preguntas, respuestas y conversaciones sobre una amplia gama de temas. Parece ser una especie de Reddit danés, solo que los caballos siempre son el gran queso o los grandes tipos del campus en el foro. En todo caso, parece menospreciarlo. Cuando visité el sitio intentando utilizar mi simple comprensión del inglés antiguo, parecía seguir estando muy centrado en los caballos y la equitación. El resultado de todo esto es que es probable que la IA danesa tenga un fuerte sesgo hacia los caballos y los temas relacionados con los caballos.

De nuevo en el mundo de habla inglesa, muchos editores están tomando medidas en la actualidad para evitar que las empresas de IA recopilen su contenido. Aquí hay una pequeña anécdota sobre cómo sucedió. Cuando me enteré de este bloqueo, pensé que deberíamos bloquearlos también. Para anticipar las preguntas groseras que a menudo encuentro en este frente, no, no voy a esperar un cheque de once dólares. Desde el lado práctico de los derechos de uso o el dinero, no podría importarme menos. Sin embargo, en principio creo que siempre debemos hacer un esfuerzo dada la magnitud del acuerdo al que hemos llegado.

Con la mayoría de los tipos de raspado digital, un creador de sitios web puede poner algún tipo de nota digital en la pila que indique a los bots que no se coman esa pila de contenido. Por ejemplo, puedes decirle a Google que no escanee tu sitio web en busca de su motor de búsqueda. Pocas personas lo hacen por razones obvias. Pero puedes hacerlo si quieres. En lo que respecta a la gente de IA, es una historia completamente diferente.

Los editores que impiden que los bots de IA recopilen sus sitios web deben hacer todo lo posible para detenerlos. Simplemente decirles que se salten tu sitio web no funcionará. ¿Por qué? Porque nadie quiere robar su contenido para construir modelos de IA que puedan convertir a otros en multimillonarios. En otras palabras, la idea de que la IA se basa en datos que los creadores de IA no tienen permiso para usar no es teórica. Nadie quiere que eso suceda. Los grandes actores invierten una buena cantidad de esfuerzo y gasto para evitarlo. Es la diferencia entre colocar un cartel de «No solicitar» e instalar medidas de seguridad estrictas para mantener a la gente fuera.

Para nosotros, el esfuerzo y el tiempo fueron prohibitivos. No importa… Fue simplemente una idea para mostrar cierta solidaridad con la causa anti-IA y antirrobo. Sin embargo, te da una idea de la ética y el estatus de esa nueva industria.

Anúncios