Cloudflare accuse Perplexity AI d'utiliser des robots d'exploration furtifs et non déclarés pour contourner les restrictions de sites web empêchant les robots d'accéder à leur contenu. L'entreprise allègue que les robots d'exploration de Perplexity contournent les directives d'interdiction d'exploration en changeant les adresses IP et en modifiant leurs agents utilisateurs. Malgré des protocoles web comme robots.txt, qui déterminent les sites web que les robots sont autorisés à explorer, les robots de Perplexity auraient continué à analyser les sites web qui bloquent explicitement cette activité. Cloudflare a donc bloqué les robots d'exploration de Perplexity sur sa plateforme.

Ce que Cloudflare en dit

Cloudflare affirme que les robots IA de Perplexity enfreignent les pratiques d'exploration web standard en tentant d'accéder à des sites web qui ont clairement demandé à ne pas être explorés. Cloudflare a également déclaré que le recours à des tactiques furtives par Perplexity, notamment les changements d'agent utilisateur et la rotation des adresses IP, compromet l'intégrité de la sécurité des données des sites web. En réponse, Cloudflare a retiré Perplexity de sa liste de robots vérifiés et renforcé les mesures de blocage pour protéger les sites web.

Quelle est la réponse de la perplexité

Perplexity a nié ces accusations, qualifiant les affirmations de Cloudflare d'exagérées et d'inexactes. L'entreprise affirme que l'activité d'exploration en question pourrait avoir été provoquée par des services tiers et non directement par ses robots. Perplexity a également souligné que de nombreuses entreprises d'IA, dont la sienne, s'appuient sur des services tiers pour le scraping web, ce qui complique la responsabilité. L'entreprise a critiqué Cloudflare pour avoir dramatisé l'affaire et a soutenu que ses pratiques ne diffèrent pas de celles des autres systèmes d'IA. Dans sa réponse, Perplexity souligne qu'ils ne contournent pas intentionnellement les restrictions des sites web et suggère que Cloudflare pourrait réagir de manière excessive à la situation.

Ce que cela signifie (en termes humains)

Si vous possédez un site web utilisant Cloudflare et que vous avez interdit l'accès aux robots, Perplexity a trouvé un moyen d'ignorer ces règles et de scraper votre site malgré tout. Cloudflare l'a détecté et a complètement bloqué Perplexity. Désormais, même si vous utilisez Cloudflare et que vous avez autorisé l'accès aux robots, Perplexity ne pourra plus accéder à votre site.

Relier les points

Nous comprenons que, sans tous les détails, il est difficile de comprendre ce qui se passe. Il suffit de lire le titre : « Nous avons dit « Interdit aux bots », et Perplexity a dit « On s'en fiche ». Mais il y a aussi un autre aspect à cela : maintenant que l'autre camp a dit « Oui, on autorise les bots », Perplexity reçoit un panneau « Entrée interdite ». Alors, que se passe-t-il vraiment ? Regardons cela de plus près.

Qu'est-ce que Cloudflare et que fait-il ?

Cloudflare est un service qui protège les sites web des menaces de sécurité et optimise leurs performances. L'une de ses principales fonctions est de protéger les sites web contre les robots indésirables, c'est-à-dire des programmes automatisés qui récupèrent des données, envoient du spam ou lancent des attaques. Cloudflare permet de gérer les robots autorisés à accéder à un site web grâce à des outils tels que les fichiers «  robots.txt », qui indiquent aux robots s'ils sont les bienvenus ou non.
Ils disposent également d'un système de vérification garantissant que seuls des robots de confiance explorent les sites et bloquent toute activité suspecte ou nuisible. Cloudflare est ainsi un acteur clé du maintien de l'intégrité et de la sécurité du web .

Quelles sont les règles convenues ?

Tout comme dans la vie réelle, où il existe des règles à suivre, il en va de même pour le trafic web. Les sites web utilisent des outils comme « robots.txt » pour définir ces règles, indiquant aux robots ce à quoi ils peuvent ou non accéder. Et tout comme vous avez besoin d'une pièce d'identité pour prouver votre identité dans le monde réel, les robots doivent s'identifier grâce à leur adresse IP.

Perplexity le sait, et tout le monde le sait. Si les robots ne suivaient pas les règles, le trafic web s'effondrerait. Au final, ce système fonctionne pour tous, car il garantit des informations exactes et utiles. Si chacun pouvait faire ce qu'il veut, l'information n'aurait aucune valeur, voire aucune information du tout.

Alors, que s'est-il passé ? Perplexity a demandé les informations, mais a continué à modifier son adresse IP, contournant ainsi le processus normal imposé par « robots.txt ». Son identité n'a pas été vérifiée comme étant celle d'un robot IA, et « robots.txt » n'a donc pas pu l'identifier correctement ni permettre l'interaction appropriée.

Pour le dire plus clairement, c'est du vol. C'est comme tromper d'autres robots et obtenir ce que vous voulez en changeant constamment d'identité, en utilisant différentes adresses IP pour vous infiltrer.

Que signifie réellement l’utilisation par des tiers « norme industrielle » ?

La norme industrielle implique que, pour le web scraping et la collecte de données, de nombreuses entreprises font appel à des services tiers pour collecter des informations sur le web. Cette pratique est souvent considérée comme la « norme industrielle », car elle est courante dans de nombreuses entreprises, notamment dans les domaines de l'IA et du machine learning. Ces services tiers, ou bots, agissent comme des intermédiaires, accédant aux sites web pour le compte de l'entreprise et collectant des données.

L'objectif du recours à des tiers est l'efficacité et l'évolutivité. Plutôt que de développer et de gérer leurs propres robots d'indexation, les entreprises peuvent externaliser cette tâche auprès de services spécialisés, capables de gérer d'importants volumes de données. Ces services peuvent utiliser diverses techniques pour collecter des informations rapidement et sans intervention directe de l'entreprise, notamment la rotation des adresses IP ou l'utilisation de plusieurs robots.

Bien que cette pratique soit répandue et techniquement acceptée dans de nombreux cas, elle soulève d'importantes questions d'éthique et de consentement. Ce n'est pas parce qu'une norme sectorielle est toujours conforme aux bonnes pratiques ou qu'elle respecte les souhaits des propriétaires de sites web. Dans ce cas précis, le recours de Perplexity à des robots tiers a soulevé des questions quant à savoir si ces robots contournent les règles et protocoles établis, comme « robots.txt », pour obtenir les données souhaitées.

En résumé

Y a-t-il une enquête ?
Oui, Cloudflare a identifié les robots de Perplexity qui contournent les directives de non-exploration et les bloque activement.

Que se passe-t-il ensuite ?
Cloudflare a supprimé Perplexity de sa liste de bots vérifiés et des mesures de blocage plus strictes sont en place.

Quelle est la situation maintenant ?
Les robots de Perplexity ne peuvent plus accéder aux sites web utilisant les services de Cloudflare, et la controverse sur les pratiques de web scraping perdure. Cela met en évidence la tension entre la collecte de données par l'IA et le respect des règles des propriétaires de sites web.

Invitez-le

Vous souhaitez configurer votre fichier robots.txt ? Voici une invite pour obtenir les instructions adaptées au fournisseur choisi.

Invite à configurer robots.txt

Copiez et collez simplement ceci :

J'utilise [Saisissez le nom du fournisseur ici] pour configurer le fichier robots.txt de mon site web. Veuillez rechercher en ligne des instructions pour configurer correctement ce fichier afin d'autoriser ou de bloquer des robots spécifiques. Fournissez des exemples et des instructions détaillées de [Saisissez le nom du fournisseur ici] pour configurer le fichier robots.txt. Veuillez inclure des liens vers la documentation officielle du fournisseur et toute ressource utile pour me guider dans la création du fichier.

Point de vue de l'équipe Frozen Light

Nous pensons que les règles sont les règles et doivent être respectées. Nous aurions pu nous arrêter là, mais nous souhaitions attirer votre attention sur une nouvelle situation juridique découlant du comportement présumé de Perplexity. (Nous ne prétendons pas qu'ils ont commis ces actes, mais examinons les implications d'un tel comportement.)

Nous avons enquêté sur les aspects juridiques, et voici ce que nous avons trouvé :

D'après les informations disponibles, Cloudflare pourrait poursuivre Perplexity en justice, mais le cadre juridique de ces affaires est encore en cours d'élaboration. Voici un aperçu des arguments juridiques potentiels fondés sur des poursuites similaires :

  • Violation de contrat/Conditions d'utilisation : De nombreux sites web, y compris ceux protégés par Cloudflare, ont des conditions d'utilisation interdisant explicitement le web scraping. Si les actions de Perplexity sont jugées contraires à ces conditions, cela pourrait donner lieu à des poursuites judiciaires.

  • Violation du droit d'auteur : Les clients de Cloudflare, créateurs et éditeurs de contenu, pourraient poursuivre Perplexity pour utilisation de leur contenu protégé par le droit d'auteur sans autorisation. C'est le même argument qu'invoquent des médias comme le New York Times dans leur action en justice contre OpenAI.

  • Loi sur la fraude et les abus informatiques (CFAA) : Cette loi interdit l'accès à un système informatique sans autorisation. L'accusation de Cloudflare selon laquelle les « crawlers furtifs » de Perplexity se font passer pour des utilisateurs légitimes et contournent les mesures de sécurité pourrait être interprétée comme une violation de cette loi.

Bien que Cloudflare n'ait pas annoncé de poursuite contre Perplexity, ses déclarations publiques et ses actions techniques, telles que la radiation de Perplexity en tant que bot vérifié et le blocage de ses robots d'exploration, ont mis en évidence les problèmes juridiques et éthiques au cœur de ce conflit.

Nous entrons dans un nouveau paysage où les règles ont changé, mais pas leur application. C'est comme un accord entre gentlemen où chacun est invité à respecter les règles, mais aucune mesure n'est prise pour les faire respecter.

En tant qu'utilisateurs, nous avons le sentiment de ne pas avoir notre mot à dire et de ne pouvoir nous protéger. Cela peut paraître choquant, mais c'est la réalité.

Notre position est d'exiger de chacun un comportement équitable. Notre enquête montre que ce qu'un robot peut explorer lorsqu'il ne respecte pas les règles ne se limite pas au contenu public ; des informations sensibles sont également concernées. En tant que créateurs de contenu, nous sommes les seuls à savoir véritablement ce qui se passe, et nous exigeons que chacun respecte les règles.

De plus, nous n'avons souvent aucun moyen de savoir si les règles ont été enfreintes, à moins que des fournisseurs comme Cloudflare ne mènent leurs propres enquêtes. Nous espérons que le système juridique prendra conscience du monde dans lequel nous évoluons tous et nous protégera.



Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.