Cloudflare האשימה את Perplexity AI בשימוש בסורקי רשת חשאיים ולא מוצהרים כדי לעקוף מגבלות אתרים המונעות מבוטים גישה לתוכן שלהם. החברה טוענת כי הסורקים של Perplexity מתחמקים מהנחיות אי-סריקה על ידי סיבוב כתובות IP ושינוי סוכני המשתמש שלהם. למרות פרוטוקולי אינטרנט כמו robots.txt, המכתיבים את האתרים שבוטים מורשים לסרוק, על פי הדיווחים, הבוטים של Perplexity המשיכו לגרד אתרים שחוסמים במפורש פעילות כזו. זה הוביל לכך ש-Cloudflare חוסמת את הסורקים של Perplexity מהפלטפורמה שלה.

מה אומרת Cloudflare על זה

Cloudflare טוענת כי הבוטים של Perplexity המבוססים על בינה מלאכותית הפרו את נוהלי סריקת האתרים הסטנדרטיים בכך שניסו לגשת לאתרים שביקשו בבירור לא להיסרק. כמו כן, הם הצהירו כי השימוש של Perplexity בטקטיקות חמקניות, כולל שינויי סוכני משתמש וסבב כתובות IP, פוגע בשלמות אבטחת המידע של האתר. בתגובה, Cloudflare הסירה את Perplexity מרשימת הבוטים המאומתים שלה והגבירה את אמצעי החסימה כדי להגן על אתרים.

מהי תגובת המבוכה

חברת Perplexity הכחישה את ההאשמות, וקראה לטענותיה של Cloudflare מוגזמות ולא מדויקות. הם טוענים כי פעילות הסריקה המדוברת עשויה להיגרם על ידי שירותי צד שלישי ולא ישירות על ידי הבוטים שלהם. Perplexity ציינה גם כי חברות בינה מלאכותית רבות, כולל שלהן, מסתמכות על שירותי צד שלישי לצורך גירוד אתרים, דבר המסבך את האחריות. הם ביקרו את Cloudflare על כך שהעלתה את הנושא לסנסציוני וטענו כי שיטות העבודה שלהם אינן שונות מאלה המשמשות מערכות בינה מלאכותית אחרות. תגובת Perplexity מדגישה כי הם אינם עוקפים במכוון הגבלות אתרים ורמזה כי Cloudflare עשויה להגזים בתגובתה למצב.

מה זה אומר (במילים אנושיות)

אם יש לכם אתר אינטרנט המשתמש ב-Cloudflare ואמרתם לבוטים לא לגשת אליו, Perplexity מצאה דרך להתעלם מהכללים האלה ולגרד את האתר שלכם בכל מקרה. Cloudflare קלטה את זה וחסמה את Perplexity לחלוטין. אז עכשיו, גם אם אתם משתמשים ב-Cloudflare ואיפשרתם גישה לבוטים, Perplexity לא יוכל להגיע לאתר שלכם.

חיבור הנקודות

אנו מבינים שבלי כל הפרטים, קשה באמת להבין מה קורה. כל מה שצריך לעשות הוא הכותרת: "אמרנו שאסור לבוטים להיכנס, ו-Perplexity אמרו שלא אכפת לנו". אבל יש גם צד שני לזה, שכן עכשיו הצד השני שאמר כן, אנחנו מאפשרים, מקבל שלט "אין כניסה" על מבולבלים. אז מה באמת קורה כאן? בואו נסתכל מקרוב.

מה זה קלאודפלייר ומה הוא עושה?

Cloudflare הוא שירות המגן על אתרים מפני איומי אבטחה וממטב את הביצועים. אחת מתפקידיו העיקריים היא לפעול כמגן לאתרים מפני בוטים לא רצויים - תוכנות אוטומטיות שגורפות נתונים, דואר זבל או אפילו משגרות התקפות. Cloudflare מסייע בניהול אילו בוטים מורשים לגשת לאתר אינטרנט, באמצעות כלים כמו קבצי " robots.txt ", אשר מודיעים לבוטים אם הם רצויים או לא.
יש להם גם מערכת אימות כדי להבטיח שרק בוטים מהימנים סורקים אתרים, והם חוסמים כל פעילות חשודה או מזיקה. זה הופך את Cloudflare לשחקן מפתח בשמירה על שלמות האינטרנט ואבטחתו .

מהם הכללים המוסכמים?

בדיוק כמו בחיים האמיתיים, שבהם יש כללים שעלינו לציית להם, כך גם בעולם תעבורת האינטרנט. אתרים משתמשים בכלים כמו "robots.txt" כדי לקבוע את הכללים הללו, ולומר לבוטים למה הם יכולים לגשת ולא למה הם יכולים. וכמו שאתם צריכים תעודת זהות כדי להוכיח מי אתם בעולם האמיתי, בוטים צריכים לזהות את עצמם באמצעות כתובת ה-IP שלהם.

Perplexity יודע זאת, וכך גם כולם. אם בוטים לא היו פועלים לפי הכללים, עולם תעבורת האינטרנט היה קורס. בסופו של דבר, המערכת הזו עובדת עבור כולם כי היא שומרת על מידע מדויק ושימושי. אם כל אחד היה יכול לעשות מה שהוא רוצה, לא היה שום ערך במידע, או גרוע מכך, שום מידע בכלל.

אז מה קרה? Perplexity ביקשה את המידע אך המשיכה לשנות את כתובת ה-IP שלה, תוך עקיפת התהליך הרגיל שנאכף על ידי "robots.txt". זהותם לא אומתה כבוט מבוסס בינה מלאכותית, כך ש-"robots.txt" לא יכלה לזהות אותם כראוי או לאפשר את האינטראקציה הנכונה.

במילים מזעזעות, זו גניבה. זה כמו להערים על בוטים אחרים ולקבל את מה שאתה רוצה על ידי שינוי מתמיד של הזהות שלך - שימוש בכתובות IP שונות כדי להתגנב פנימה.

מה באמת משמעות השימוש של צד שלישי ב"סטנדרט בתעשייה"?

תקן בתעשייה פירושו שכאשר מדובר בגירוד אתרים ואיסוף נתונים, חברות רבות מסתמכות על שירותים של צד שלישי כדי לאסוף מידע מהאינטרנט. זה נתפס לעתים קרובות כ"תקן בתעשייה" מכיוון שזהו נוהג נפוץ בעסקים רבים, במיוחד בתחומי הבינה המלאכותית ולמידת מכונה. שירותים או בוטים של צד שלישי אלה פועלים כמתווכים, ניגשים לאתרי אינטרנט מטעם החברה ואוספים נתונים.

הרעיון מאחורי השימוש בצדדים שלישיים הוא יעילות וגמישות. במקום לבנות ולנהל את סורקי האינטרנט שלהם בעצמם, חברות יכולות להוציא משימה זו למיקור חוץ לשירותים מיוחדים שהוקמו כדי לטפל בכמויות גדולות של איסוף נתונים. שירותים אלה עשויים להשתמש בטכניקות שונות כדי לאסוף מידע במהירות וללא מעורבות ישירה של החברה, כולל החלפת כתובות IP או שימוש ברוב הבוטים.

בעוד שנוהג זה נפוץ ומקובל מבחינה טכנית במקרים רבים, הוא מעלה שאלות חשובות בנוגע לאתיקה והסכמה. רק בגלל שמשהו הוא סטנדרט בתעשייה, זה לא אומר שהוא תמיד תואם את שיטות העבודה המומלצות או מכבד את רצונות בעלי האתרים. במקרה זה, ההסתמכות של Perplexity על בוטים של צד שלישי הובילה לשאלות האם בוטים אלה עוקפים כללים ופרוטוקולים קבועים, כמו "robots.txt", כדי לקבל את הנתונים שהם רוצים.

שורה תחתונה

האם יש חקירה?
כן, Cloudflare זיהתה את הבוטים של Perplexity שעוקפים הנחיות אי-סריקה וחוסמת אותם באופן פעיל.

מה קורה אחר כך?
Cloudflare הסירה את Perplexity מרשימת הבוטים המאומתים שלה, וננקטו צעדי חסימה מחמירים יותר.

מה המצב עכשיו?
הבוטים של Perplexity אינם יכולים עוד לגשת לאתרים המשתמשים בשירותי Cloudflare, והמחלוקת סביב נוהלי גירוד אתרים נמשכת. עובדה זו מדגישה את המתח בין איסוף נתוני בינה מלאכותית לבין כיבוד הכללים של בעלי האתרים.

הצע את זה

מעוניין להגדיר את קובץ robots.txt שלך? הנה הנחיה שתוכל להשתמש בה כדי לקבל את ההוראות הנכונות עבור הספק שבחרת.

בקשה להגדרת robots.txt

פשוט העתיקו והדביקו את זה:

אני משתמש ב-[הזן את שם הספק כאן] כדי להגדיר את קובץ ה-robots.txt של האתר שלי. אנא חפש באינטרנט הוראות כיצד להגדיר כראוי קובץ זה כדי לאפשר או לחסום בוטים ספציפיים. ספק דוגמאות והוראות שלב אחר שלב מ-[הזן את שם הספק כאן] כיצד להגדיר את קובץ ה-robots.txt. אנא כלול קישורים לתיעוד הרשמי של הספק וכל משאב מועיל שידריך אותי ביצירת הקובץ.

פרספקטיבה של צוות האור הקפוא

אנו מאמינים שכללים הם כללים ויש לציית להם. יכולנו לעצור שם, אך רצינו להפנות את תשומת לבכם למצב משפטי חדש שנוצר מההתנהגות לכאורה של Perplexity. (אנחנו לא אומרים שהם עשו זאת, אבל בואו נבחן את ההשלכות אם כן.)

בדקנו את ההיבטים המשפטיים, והנה מה שגילינו:

בהתבסס על המידע הזמין, Cloudflare עשויה לתבוע את Perplexity, אך הנוף המשפטי עבור מקרים כאלה עדיין מתפתח. להלן פירוט של הטיעונים המשפטיים הפוטנציאליים המבוססים על תביעות דומות:

  • הפרת חוזה/תנאי שירות: אתרים רבים, כולל אלו המוגנים על ידי Cloudflare, כוללים תנאי שירות האוסרים במפורש על גירוד אתרים. אם יימצא כי פעולותיה של Perplexity מפרות תנאים אלה, הדבר עלול להוות בסיס לתביעה משפטית.

  • הפרת זכויות יוצרים: לקוחות Cloudflare, שהם יוצרי תוכן ומוציאים לאור, יכולים לתבוע את Perplexity על שימוש בתוכן המוגן בזכויות יוצרים שלהם ללא רשות. זהו אותו טיעון בו משתמשים כלי תקשורת כמו הניו יורק טיימס בתביעה שלהם נגד OpenAI.

  • חוק הונאת מחשבים וניצול לרעה (CFAA): חוק זה קובע גישה למערכת מחשב ללא אישור. האשמת Cloudflare לפיה "הזחלים החמקניים" של Perplexity מתחזים למשתמשים לגיטימיים ועוקפים אמצעי אבטחה עלולה להתפרש כהפרה של חוק זה.

בעוד ש-Cloudflare לא הודיעה על תביעה נגד Perplexity, הצהרותיה הפומביות ופעולותיה הטכניות, כגון הסרת Perplexity כבוט מאומת וחסימת הזחלנים שלה, הדגישו את הסוגיות המשפטיות והאתיות שבלב הסכסוך הזה.

אנחנו נכנסים לנוף חדש שבו הכללים השתנו, אבל האכיפה לא. זה כמו הסכם ג'נטלמני שבו כולם מתבקשים לשחק לפי הכללים, אבל אין שום פעולה לאכיפתם.

כמשתמשים, אנחנו מרגישים שאין לנו שום אמירה בנושא, ואין לנו דרך להגן על עצמנו. זה נשמע מזעזע, אבל זו המציאות.

עמדתנו היא לבקש מכולם לשחק בצורה הוגנת. החקירה שלנו מראה שמה שבוט יכול לסרוק כשהוא לא פועל לפי הכללים הוא יותר מסתם תוכן ציבורי; מעורב גם מידע רגיש. אנחנו, כיוצרי תוכן, היחידים שבאמת יודעים מה זה מה, ואנחנו צריכים שכולם ידבקו בכללים.

יתר על כן, לעתים קרובות אין לנו דרך לדעת אם הכללים הופרו אלא אם כן ספקים כמו Cloudflare יערכו חקירות משלהם. אנו מקווים שהמערכת המשפטית תתעורר לעולם שבו כולנו פועלים ותגן עלינו.



Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.