[ad_1]
El auge de la inteligencia artificial (IA) ha sido disruptivo. Las cosas cambian rápidamente. Y parece que esta tecnología plantea cada día nuevas cuestiones morales, éticas y existenciales.
Hay muchas historias y opiniones para elegir. Pero uno incidente reciente llamó mi atención.
El propietario de un sitio web afirmó que su sitio era «martillado” por un bot de raspado de contenido. La herramienta img2conjunto de datoscatálogo de grandes volúmenes de imágenes para su uso en herramientas de IA como Transmisión constante.
El propietario del sitio ha abierto un problema en el repositorio de GitHub de la herramienta. Se le aconsejó que dejara de raspar. Para hacer esto, debe agregar encabezados específicos a su sitio web.
Esta es nuestra nueva realidad. Estas herramientas capturan todo tipo de contenido, incluidas las imágenes con derechos de autor. Lo regurgitan a sus usuarios. De hecho, es el mash-up más grande del mundo.
Además, corresponde a los propietarios de sitios web dejar en claro que no quiero participar ¿Es tan escandaloso como suena? Echemos un vistazo al problema y lo que significa para los propietarios de sitios web.
Raspar el contenido del sitio web con fines de lucro no es nuevo
En un nivel, una herramienta que rastrea su sitio web no es una idea nueva. Los motores de búsqueda han estado indexando contenido y mostrando elementos relevantes en los resultados durante años. Además, RSS se ha utilizado para recuperar texto e imágenes desde los primeros días de la web.
Y empresas como Google se han beneficiado enormemente de estos esfuerzos. Cuantos más datos recopilan, mejores resultados proporcionan. Por lo tanto, más globos oculares atraen. Esto se traduce en mayores ingresos publicitarios.
Esta ha sido la forma del mundo desde hace algunas décadas. Así que no sorprende que otras empresas estén adoptando un enfoque similar.
Después de todo, un desarrollador de IA necesita una buena fuente de contenido para «entrenar» su herramienta. ¿Qué mejor manera de lograr esto que recopilando la mayor cantidad de datos posible? Para ellos, la web es el regalo que sigue dando.
Entonces, solo tener un bot que visite su sitio web y catalogue el contenido no es gran cosa. Pero tal vez ahí es donde terminan las similitudes.
¿Hay algún beneficio para los propietarios de sitios web?
La gran diferencia es quién se beneficia. Cuando un motor de búsqueda indexa su sitio web, tiene todas las de ganar. Las clasificaciones más altas significan más visitantes y, potencialmente, más clientes. Y si practica la optimización de motores de búsqueda (SEO), le pide a Google que lo visite.
Los bots de IA no pueden alcanzar el nivel de un invitado no invitado. Pero tampoco lo visitan exactamente para su beneficio.
Por ejemplo, cuando le pide a ChatGPT que escriba código, no se trata del curso de informática que tomó en la universidad. La herramienta aprovecha el contenido previamente raspado. Cierto, puede que no sea una copia línea por línea (incluso si a veces). Pero el modelo lingüístico usa lo que ha «aprendido» para producir una respuesta.
Del mismo modo, generar una imagen de Elon Musk montando un unicornio no es magia (perdón por estropear la diversión). Los diferentes elementos visuales tenían que venir de alguna parte. Las imágenes originales (y potencialmente protegidas por derechos de autor) son ingredientes clave.
En ambos escenarios, los beneficiarios son la herramienta de IA y el usuario final. ¿Las fuentes utilizadas para generar este contenido? Tienen más tráfico de bots agregado a su uso mensual de ancho de banda.
El desarrollador de img2dataset tiene un enfoque ligeramente diferente. Entre sus respuestas Inquietudes sobre la necesidad de optar por no participar:
“Tendrá muchas oportunidades en los próximos años para beneficiarse de la IA. Espero que veas esto más temprano que tarde. Como creadores, tienes aún más oportunidades de beneficiarte. »
Su lógica parece sugerir que todos nos beneficiaremos de la IA en algún momento. Por lo tanto, permitir que la herramienta raspe su contenido es bueno para la humanidad. O algo así.
¿Bloquear o no bloquear?
La decisión de evitar que AI raspe su sitio web es compleja. O requiere varios pasos, al menos.
Quizás la parte más fácil es identificar su filosofía. ¿Estás de acuerdo con que se elimine tu contenido? Si es así, continúe. De lo contrario, las otras partes de la ecuación son más complicadas.
Por un lado, no existe una forma universal de optar por no participar en todos los raspados de IA. Encabezados para bloquear el trabajo image2dataset Sólo para esta herramienta. Esto significa realizar un seguimiento de las herramientas populares y encontrar métodos para bloquearlas.
Y empresas como Google y Microsoft complican aún más la conversación. Ambos tienen sus propios motores de búsqueda. Probablemente quieras que indexen tu sitio web. Pero también tienen herramientas de IA. ¿Dónde está el límite entre estos diferentes productos?
Por su parte, Bardo de Google afirma que no obtiene contenido de sitios web (¡pregunté!). Pero en la misma conversación, también se afirma que los sitios web son parte de donde se obtienen los datos. Haz lo que quieras con estas respuestas.
Si desea bloquear todo tipo de herramientas de IA, no será fácil. Pero tal vez no por mucho tiempo. Puedo imaginar servicios que atenderán a los propietarios de sitios web que no quieren tener nada que ver con el raspado de contenido. Pueden permitirnos hacerlo de manera más eficiente.
Pero hasta entonces, parece una batalla perdida. La IA es inevitable. ¿Y quién tiene tiempo para catalogar cada nueva aplicación que llega al mercado? Además, puede ser difícil bloquear estas herramientas sin afectar negativamente al SEO.
Los propietarios de sitios web deben valerse por sí mismos
No todos se verán tan afectados como el usuario frustrado de nuestra introducción. En este caso, parece que image2dataset estaba indexando un gran volumen de imágenes. A menos que esté en el mismo barco, su sitio probablemente no tendrá ningún problema.
Pero el problema es mucho más profundo. Esto debería hacernos pensar en cómo valoramos nuestro contenido. Y deberíamos preguntarnos qué tipo de derechos (si los hay) tienen estas herramientas. ¿Pueden simplemente tomar lo que quieren? ¿O debería haber pautas que describan lo que está permitido y lo que no?
La regulación significativa de la industria podría llevar meses o incluso años. Mientras tanto, los propietarios de sitios web tienen que valerse por sí mismos.
Como parte del esfuerzo, es importante hacer oír su voz. Animar a las empresas a hacer de la eliminación de chatarra un proceso transparente. Exprese sus preocupaciones a los funcionarios electos y otras personas influyentes.
Es posible que esto no frene la avalancha de herramientas de IA. Pero podría evitar que las cosas se salgan de control. Nos beneficiará a todos.
[ad_2]