Cloudflare ha accusato Perplexity AI di utilizzare crawler furtivi e non dichiarati per aggirare le restrizioni dei siti web che impediscono ai bot di accedere ai loro contenuti. L'azienda sostiene che i crawler di Perplexity eludono le direttive di non scansione ruotando gli indirizzi IP e modificando i loro user agent. Nonostante protocolli web come robots.txt, che stabiliscono i siti web che i bot possono scansionare, i bot di Perplexity avrebbero continuato a scansionare siti web che bloccano esplicitamente tale attività. Ciò ha portato Cloudflare a bloccare i crawler di Perplexity dalla sua piattaforma.

Cosa dice Cloudflare a riguardo

Cloudflare sostiene che i bot AI di Perplexity abbiano violato le pratiche standard di web crawling, tentando di accedere a siti web che hanno chiaramente richiesto di non essere scansionati. L'azienda ha inoltre affermato che l'uso di tattiche stealth da parte di Perplexity, tra cui modifiche allo user agent e rotazione degli indirizzi IP, compromette l'integrità della sicurezza dei dati dei siti web. In risposta, Cloudflare ha rimosso Perplexity dal suo elenco di bot verificati e ha aumentato le misure di blocco per proteggere i siti web.

Qual è la risposta della perplessità?

Perplexity ha negato le accuse, definendo le affermazioni di Cloudflare esagerate e inaccurate. Sostengono che l'attività di scansione in questione potrebbe essere stata causata da servizi di terze parti e non direttamente dai loro bot. Perplexity ha anche sottolineato che molte aziende di intelligenza artificiale, inclusa la loro, si affidano a servizi di terze parti per il web scraping, il che complica la responsabilità. Hanno criticato Cloudflare per aver sensazionalizzato la questione e hanno sostenuto che le loro pratiche non sono diverse da quelle utilizzate da altri sistemi di intelligenza artificiale. La risposta di Perplexity sottolinea che non stanno intenzionalmente aggirando le restrizioni dei siti web e ha suggerito che Cloudflare potrebbe aver reagito in modo eccessivo alla situazione.

Cosa significa (in parole umane)

Se hai un sito web che utilizza Cloudflare e hai impostato i bot per non accedervi, Perplexity ha trovato un modo per ignorare queste regole e comunque analizzare il tuo sito. Cloudflare se n'è accorto e ha bloccato completamente Perplexity. Quindi, ora, anche se utilizzi Cloudflare e hai consentito l'accesso ai bot, Perplexity non potrà accedere al tuo sito.

Collegare i puntini

Sappiamo che senza tutti i dettagli è difficile capire davvero cosa sta succedendo. Tutto quello che devi fare è leggere il titolo: "Abbiamo detto che i bot non sono ammessi, e Perplexity ha detto che non ci importa". Ma c'è anche un altro lato della medaglia: ora che l'altra parte ha detto di sì, permettiamo i bot, Perplexity ha ricevuto un cartello di divieto di accesso. Quindi, cosa sta succedendo davvero? Diamo un'occhiata più da vicino.

Cos'è Cloudflare e cosa fa?

Cloudflare è un servizio che protegge i siti web dalle minacce alla sicurezza e ne ottimizza le prestazioni. Una delle sue funzioni principali è quella di fungere da scudo per i siti web contro i bot indesiderati, programmi automatizzati che raccolgono dati, inviano spam o addirittura lanciano attacchi. Cloudflare aiuta a gestire quali bot sono autorizzati ad accedere a un sito web, utilizzando strumenti come i file " robots.txt ", che indicano ai bot se sono benvenuti o meno.
Cloudflare dispone inoltre di un sistema di verifica per garantire che solo bot affidabili eseguano la scansione dei siti e blocca qualsiasi attività sospetta o dannosa. Questo rende Cloudflare un attore chiave nel mantenimento dell'integrità e della sicurezza del web .

Quali sono le regole concordate?

Proprio come nella vita reale, dove ci sono regole da seguire, lo stesso vale per il mondo del traffico web. I siti web utilizzano strumenti come "robots.txt" per impostare queste regole, indicando ai bot a cosa possono e non possono accedere. E proprio come nel mondo reale è necessario un documento d'identità per dimostrare la propria identità, i bot devono identificarsi tramite il proprio indirizzo IP.

Perplexity lo sa, e lo sanno tutti. Se i bot non seguissero le regole, il mondo del traffico web crollerebbe. In fin dei conti, questo sistema funziona per tutti perché mantiene le informazioni accurate e utili. Se chiunque potesse fare quello che vuole, le informazioni non avrebbero alcun valore, o peggio, nessuna informazione.

Quindi, cosa è successo? Perplexity ha chiesto le informazioni, ma ha continuato a cambiare il proprio indirizzo IP, bypassando il normale processo imposto da "robots.txt". La loro identità non è stata verificata come bot AI, quindi "robots.txt" non è riuscito a identificarli correttamente o a consentire l'interazione corretta.

Per dirla in termini scioccanti, questo è furto. È come ingannare altri bot e ottenere ciò che si vuole cambiando continuamente identità, usando IP diversi per intrufolarsi.

Cosa significa realmente l'uso di terze parti come "standard di settore"?

Lo standard di settore significa che, quando si tratta di web scraping e raccolta dati, molte aziende si affidano a servizi di terze parti per raccogliere informazioni dal web. Questo è spesso considerato lo "standard di settore" perché è una pratica comune in molte aziende, soprattutto nei settori dell'intelligenza artificiale e dell'apprendimento automatico. Questi servizi di terze parti o bot fungono da intermediari, accedendo ai siti web per conto dell'azienda e raccogliendo dati.

L'idea alla base dell'utilizzo di terze parti è l'efficienza e la scalabilità. Anziché creare e gestire i propri web crawler, le aziende possono esternalizzare questo compito a servizi specializzati, configurati per gestire grandi volumi di raccolta dati. Questi servizi possono utilizzare diverse tecniche per raccogliere informazioni rapidamente e senza il coinvolgimento diretto dell'azienda, tra cui la rotazione degli IP o l'utilizzo di più bot.

Sebbene questa pratica sia diffusa e tecnicamente accettata in molti casi, solleva importanti questioni di etica e consenso. Il fatto che qualcosa sia uno standard di settore non significa che sia sempre in linea con le best practice o che rispetti i desideri dei proprietari dei siti web. In questo caso, l'affidamento di Perplexity a bot di terze parti ha sollevato dubbi sul fatto che tali bot stiano aggirando regole e protocolli consolidati, come "robots.txt", per ottenere i dati desiderati.

Conclusione

C'è un'indagine in corso?
Sì, Cloudflare ha identificato i bot di Perplexity che aggirano le direttive no-crawl e li sta bloccando attivamente.

Cosa succederà adesso?
Cloudflare ha rimosso Perplexity dal suo elenco di bot verificati e ha adottato misure di blocco più severe.

Qual è la situazione attuale?
I bot di Perplexity non sono più in grado di accedere ai siti web utilizzando i servizi di Cloudflare e la controversia sulle pratiche di web scraping continua. Ciò evidenzia la tensione tra la raccolta di dati tramite intelligenza artificiale e il rispetto delle regole dei proprietari dei siti web.

Sollecitalo

Vuoi configurare il tuo file robots.txt? Ecco un prompt che puoi utilizzare per ottenere le istruzioni corrette per il fornitore che hai scelto.

Richiedi di configurare robots.txt

Basta copiare e incollare questo:

"Sto utilizzando [Inserisci qui il nome del fornitore] per configurare il file robots.txt del mio sito web. Cerca online le istruzioni su come configurare correttamente questo file per consentire o bloccare bot specifici. Fornisci esempi e istruzioni dettagliate di [Inserisci qui il nome del fornitore] su come configurare il file robots.txt. Includi i link alla documentazione ufficiale del fornitore e a qualsiasi risorsa utile per guidarmi nella creazione del file."

Prospettiva del team di Frozen Light

Crediamo che le regole siano regole e vadano rispettate. Avremmo potuto fermarci qui, ma volevamo attirare la vostra attenzione su una nuova situazione legale derivante dal presunto comportamento di Perplexity. (Non stiamo dicendo che lo abbiano fatto, ma consideriamo le implicazioni di un eventuale comportamento del genere.)

Abbiamo esaminato gli aspetti legali ed ecco cosa abbiamo scoperto:

Sulla base delle informazioni disponibili, Cloudflare potrebbe potenzialmente citare in giudizio Perplexity, ma il panorama legale per casi simili è ancora in fase di sviluppo. Ecco un'analisi delle potenziali argomentazioni legali basate su cause simili:

  • Violazione del contratto/Termini di servizio: molti siti web, compresi quelli protetti da Cloudflare, hanno termini di servizio che vietano esplicitamente il web scraping. Se le azioni di Perplexity violassero questi termini, ciò potrebbe costituire il presupposto per una causa legale.

  • Violazione del copyright: i clienti di Cloudflare, ovvero creatori ed editori di contenuti, potrebbero citare in giudizio Perplexity per l'utilizzo non autorizzato dei propri contenuti protetti da copyright. È la stessa argomentazione utilizzata da organi di stampa come il New York Times nella causa contro OpenAI.

  • Computer Fraud and Abuse Act (CFAA): questa legge rende illegale l'accesso a un sistema informatico senza autorizzazione. L'accusa di Cloudflare secondo cui i "crawler stealth" di Perplexity si spacciano per utenti legittimi e aggirano le misure di sicurezza potrebbe essere interpretata come una violazione di questa legge.

Sebbene Cloudflare non abbia annunciato una causa contro Perplexity, le sue dichiarazioni pubbliche e le sue azioni tecniche, come la rimozione di Perplexity dall'elenco dei bot verificati e il blocco dei suoi crawler, hanno evidenziato le questioni legali ed etiche al centro di questo conflitto.

Stiamo entrando in un nuovo scenario in cui le regole sono cambiate, ma la loro applicazione è rimasta invariata. È come un accordo tra gentiluomini in cui a tutti viene chiesto di rispettare le regole, ma non c'è alcuna azione per farle rispettare.

Come utenti, sentiamo di non avere voce in capitolo e di non avere modo di proteggerci. Sembra scioccante, ma è la realtà.

La nostra posizione è quella di chiedere a tutti di comportarsi in modo corretto. La nostra indagine dimostra che ciò che un bot può indicizzare quando non rispetta le regole non riguarda solo i contenuti pubblici: sono coinvolte anche informazioni sensibili. Noi, come creatori di contenuti, siamo gli unici a sapere veramente cosa è cosa e abbiamo bisogno che tutti rispettino le regole.

Inoltre, spesso non abbiamo modo di sapere se le regole sono state violate, a meno che fornitori come Cloudflare non conducano le proprie indagini. Ci auguriamo che il sistema legale si renda conto del mondo in cui operiamo e ci protegga.



Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.