Cloudflare ha acusado a Perplexity AI de usar rastreadores ocultos y no declarados para eludir las restricciones de sitios web que impiden a los bots acceder a su contenido. La empresa alega que los rastreadores de Perplexity evaden las directivas de no rastreo rotando direcciones IP y modificando sus agentes de usuario. A pesar de protocolos web como robots.txt, que dictan los sitios web que los bots pueden rastrear, los bots de Perplexity han seguido rastreando sitios web que bloquean explícitamente dicha actividad. Esto ha llevado a Cloudflare a bloquear los rastreadores de Perplexity de su plataforma.

Lo que dice Cloudflare al respecto

Cloudflare afirma que los bots de IA de Perplexity han estado violando las prácticas estándar de rastreo web al intentar acceder a sitios web que han solicitado claramente no ser rastreados. También han declarado que el uso de tácticas ocultas por parte de Perplexity, como cambios de agente de usuario y rotación de direcciones IP, socava la integridad de la seguridad de los datos del sitio web. En respuesta, Cloudflare ha eliminado a Perplexity de su lista de bots verificados y ha reforzado las medidas de bloqueo para proteger los sitios web.

¿Cuál es la respuesta de la perplejidad?

Perplexity ha negado las acusaciones, calificando las afirmaciones de Cloudflare de exageradas e inexactas. Argumentan que la actividad de rastreo en cuestión podría haber sido causada por servicios de terceros y no directamente por sus bots. Perplexity también señaló que muchas empresas de IA, incluida la suya, dependen de servicios de terceros para el web scraping, lo que dificulta la rendición de cuentas. Criticaron a Cloudflare por sensacionalizar el asunto y argumentaron que sus prácticas no difieren de las de otros sistemas de IA. La respuesta de Perplexity enfatiza que no están eludiendo intencionalmente las restricciones del sitio web y sugiere que Cloudflare podría estar exagerando la situación.

Qué significa (en palabras humanas)

Si tienes un sitio web que usa Cloudflare y les has prohibido el acceso a bots, Perplexity encontró una forma de ignorar esas reglas y rastrear tu sitio de todas formas. Cloudflare se dio cuenta y bloqueó a Perplexity por completo. Así que ahora, incluso si usas Cloudflare y has permitido el acceso a bots, Perplexity no podrá acceder a tu sitio.

Conectando los puntos

Entendemos que sin todos los detalles, es difícil comprender realmente qué está pasando. Basta con el título: "Dijimos que no se permitían bots, y Perplexity dijo que no nos importa". Pero también hay otra cara de la moneda, ya que ahora que el otro lado dijo que sí permitíamos bots, Perplexity ha recibido una señal de prohibición de entrada. Entonces, ¿qué está pasando realmente? Analicémoslo con más detalle.

¿Qué es Cloudflare y qué hace?

Cloudflare es un servicio que protege los sitios web de amenazas de seguridad y optimiza su rendimiento. Una de sus principales funciones es proteger los sitios web contra bots no deseados (programas automatizados que extraen datos, envían spam o incluso lanzan ataques). Cloudflare ayuda a gestionar qué bots pueden acceder a un sitio web mediante herramientas como los archivos " robots.txt ", que indican a los bots si son bienvenidos o no.
También cuentan con un sistema de verificación para garantizar que solo bots confiables rastreen los sitios y bloquean cualquier actividad sospechosa o dañina. Esto convierte a Cloudflare en un actor clave para mantener la integridad y la seguridad web .

¿Cuáles son las reglas acordadas?

Al igual que en la vida real, donde hay reglas que debemos seguir, ocurre lo mismo en el mundo del tráfico web. Los sitios web usan herramientas como "robots.txt" para establecer esas reglas, indicando a los bots a qué pueden acceder y a qué no. Y, al igual que en el mundo real, se necesita una identificación para demostrar quién eres, los bots necesitan identificarse con su dirección IP.

La perplejidad lo sabe, y todos también. Si los bots no siguieran las reglas, el mundo del tráfico web se desmoronaría. En definitiva, este sistema funciona para todos porque mantiene la información precisa y útil. Si cada uno pudiera hacer lo que quisiera, la información no tendría ningún valor, o peor aún, ninguna información.

¿Qué pasó entonces? Perplexity solicitó la información, pero cambió su dirección IP una y otra vez, omitiendo el proceso normal de "robots.txt". Su identidad no se verificó como bot de IA, por lo que "robots.txt" no pudo identificarlos correctamente ni permitir la interacción correcta.

Para decirlo de forma impactante, esto es robo. Es como engañar a otros bots y conseguir lo que quieres cambiando constantemente de identidad, usando diferentes IP para infiltrarte.

¿Qué significa realmente el uso de terceros como “estándar de la industria”?

El estándar de la industria implica que, en lo que respecta al web scraping y la recopilación de datos, muchas empresas recurren a servicios de terceros para recopilar información de la web. Esto se considera a menudo el "estándar de la industria" porque es una práctica común en muchas empresas, especialmente en IA y aprendizaje automático. Estos servicios de terceros o bots actúan como intermediarios, accediendo a sitios web en nombre de la empresa y recopilando datos.

La idea detrás del uso de terceros es la eficiencia y la escalabilidad. En lugar de desarrollar y gestionar sus propios rastreadores web, las empresas pueden externalizar esta tarea a servicios especializados diseñados para gestionar grandes volúmenes de recopilación de datos. Estos servicios pueden utilizar diversas técnicas para recopilar información rápidamente y sin la intervención directa de la empresa, como la rotación de IP o el uso de múltiples bots.

Si bien esta práctica es generalizada y técnicamente aceptada en muchos casos, plantea importantes interrogantes sobre la ética y el consentimiento. Que algo sea un estándar de la industria no significa que siempre cumpla con las mejores prácticas ni que respete los deseos de los propietarios de sitios web. En este caso, la dependencia de Perplexity de bots de terceros ha generado dudas sobre si estos bots están eludiendo las normas y protocolos establecidos, como "robots.txt", para obtener los datos que desean.

En resumen

¿Hay una investigación?
Sí, Cloudflare ha identificado los bots de Perplexity que eluden las directivas de no rastreo y los está bloqueando activamente.

¿Qué pasa después?
Cloudflare ha eliminado Perplexity de su lista de bots verificados y se han implementado medidas de bloqueo más estrictas.

¿Cuál es la situación ahora?
Los bots de Perplexity ya no pueden acceder a sitios web que utilizan los servicios de Cloudflare, y la controversia sobre las prácticas de raspado web continúa. Esto pone de relieve la tensión entre la recopilación de datos de IA y el respeto a las normas de los propietarios de sitios web.

Apúntalo

¿Quieres configurar tu archivo robots.txt? Aquí tienes un mensaje que te ayudará a obtener las instrucciones correctas para el proveedor que hayas elegido.

Solicitud para configurar robots.txt

Simplemente copie y pegue esto:

Estoy usando [Ingrese el nombre del proveedor aquí] para configurar el archivo robots.txt de mi sitio web. Busque en línea instrucciones sobre cómo configurar correctamente este archivo para permitir o bloquear bots específicos. Proporcione ejemplos e instrucciones paso a paso de [Ingrese el nombre del proveedor aquí] sobre cómo configurar el archivo robots.txt. Incluya enlaces a la documentación oficial del proveedor y cualquier recurso útil que me guíe en la creación del archivo.

Perspectiva del equipo Frozen Light

Creemos que las reglas son reglas y deben cumplirse. Podríamos habernos detenido ahí, pero queríamos llamar su atención sobre una nueva situación legal derivada del presunto comportamiento de Perplexity. (No afirmamos que lo hayan hecho, pero consideremos las implicaciones si lo hubieran hecho).

Investigamos los aspectos legales y esto es lo que encontramos:

Según la información disponible, Cloudflare podría demandar a Perplexity, pero el panorama legal para estos casos aún está en desarrollo. A continuación, se presenta un resumen de los posibles argumentos legales basados en demandas similares:

  • Incumplimiento de Contrato/Condiciones de Servicio: Muchos sitios web, incluidos los protegidos por Cloudflare, tienen condiciones de servicio que prohíben explícitamente el web scraping. Si se determina que las acciones de Perplexity infringen estas condiciones, podría dar lugar a una demanda.

  • Infracción de derechos de autor: Los clientes de Cloudflare, creadores y editores de contenido, podrían demandar a Perplexity por usar su contenido protegido por derechos de autor sin permiso. Este mismo argumento esgrimen medios como The New York Times en su demanda contra OpenAI.

  • Ley de Fraude y Abuso Informático (CFAA): Esta ley prohíbe el acceso a un sistema informático sin autorización. La acusación de Cloudflare de que los rastreadores ocultos de Perplexity se hacen pasar por usuarios legítimos y evaden las medidas de seguridad podría interpretarse como una infracción de esta ley.

Si bien Cloudflare no ha anunciado una demanda contra Perplexity, sus declaraciones públicas y acciones técnicas, como la exclusión de Perplexity de la lista de bots verificados y el bloqueo de sus rastreadores, han resaltado los problemas legales y éticos que están en el centro de este conflicto.

Nos adentramos en un nuevo panorama donde las reglas han cambiado, pero su aplicación no. Es como un pacto de caballeros donde se les pide a todos que cumplan las reglas, pero no se toman medidas para hacerlas cumplir.

Como usuarios, sentimos que no tenemos voz ni voto en esto y que no tenemos forma de protegernos. Suena impactante, pero es la realidad.

Nuestra postura es pedir a todos que jueguen limpio. Nuestra investigación demuestra que lo que un bot puede rastrear cuando no sigue las reglas va más allá del contenido público; también involucra información confidencial. Nosotros, como creadores de contenido, somos los únicos que realmente sabemos qué es qué, y necesitamos que todos cumplan las reglas.

Además, a menudo no tenemos forma de saber si se han infringido las normas a menos que proveedores como Cloudflare realicen sus propias investigaciones. Esperamos que el sistema legal se dé cuenta del mundo en el que nos movemos y nos proteja.



Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.