Cloudflare звинувачує Perplexity в ігноруванні директив щодо обходу сайтів
Автор: Дан Гудін – 4 серпня 2025 року
Вступ
Постачальник рішень для безпеки та продуктивності мереж Cloudflare публічно звинуватив пошукову систему на базі штучного інтелекту Perplexity у використанні «прихованих ботів», які ігнорують стандартні правила robots.txt та правила веб-захисту (WAF). Згідно з детальним постом у блозі Cloudflare, краулери Perplexity використовували непублічні IP-адреси, змінювали кілька автономних систем (ASN) та маніпулювали рядками User-Agent, щоб отримувати контент з сайтів, які чітко забороняли краулінг.
Обсяг ймовірного ухилення
- Спостерігалося на понад 10 000 доменів з мільйонами HTTP-запитів на день.
- Використовувалися кілька діапазонів IP, не опублікованих Perplexity, які змінювалися кожні 5–15 хвилин.
- Серед ASN були DigitalOcean, Hetzner та менші хмарні провайдери для маскування походження.
- Приховані боти застосовували динамічні TLS-ідентифікатори — змінюючи шифри та ALPN вектори — щоб уникати гнучкого управління ботами з боку Cloudflare.
«Ми спостерігали флот незареєстрованих краулерів, які в реальному часі змінювали IP та ASN, щоб обійти правила robots.txt і блокування WAF. Це безпрецедентний масштаб ухилення для пошукової служби на базі штучного інтелекту», — зазначили старші дослідники безпеки Cloudflare.
Протокол виключення роботів: 30-річний стандарт
Вперше запропонований Мартейном Костером у 1994 році та стандартизований як RFC 9309 під егідою IETF у січні 2022 року, Протокол виключення роботів (REP) дозволяє операторам сайтів оголошувати правила краулінгу через robots.txt. Відомі пошукові системи — Googlebot, Bingbot, Baiduspider — десятиліттями дотримуються REP. Cloudflare стверджує, що тактики Perplexity суперечать як букві, так і духу цього тривалого інтернет-нормативу.
Думки експертів
- Аналітик з кібербезпеки (Аліса Чжан, Інститут SANS): «Зміна IP та ASN, в поєднанні з підробкою User-Agent та варіацією TLS-ідентифікаторів, свідчить про наявність складної ферми краулерів. Це ставить під сумнів питання управління даними та дотримання авторських прав.»
- Адвокат веб-стандартів (доктор Маркус Енгель, W3C): «Прозорість є основою REP. Будь-яка система, яка навмисно ховається від robots.txt, підриває довіру до відкритого вебу.»
- Експерт з конфіденційності та управління ШІ (Лаура Кім, Форум майбутнього конфіденційності): «Відповідно до Закону про ШІ в ЄС та GDPR, компанії повинні розкривати джерела даних та поважати можливість відмови. Прихований краулінг може піддати Perplexity регуляторному контролю.»
Технічний аналіз: Анатомія прихованого краулера
Аналіз Cloudflare виявив кілька рівнів ухилення:
- Зміна IP та ASN: Група з ~200 IP-адрес по 6 ASN автоматично змінювалася, щоб уникнути потрапляння в чорний список.
- Динамічна рядок User-Agent: Бот надсилав понад 50 різних UA-шаблонів, що відповідали поширеним браузерам та маловідомим ботам.
- TLS-джиттер: Змінюючи порядок шифрів та порядок розширень, запити обходили виявлення ботів на основі відбитків.
- Повільний краулінг: Перерви між GET-запитами (10 с–2 хв) для змішування з людськими патернами перегляду та обходу обмежень швидкості.
Етичні та юридичні аспекти
Окрім порушення веб-норм, приховане краулінг несе ризики:
- Порушення авторських прав: Видавці, такі як Forbes та Wired, стверджують, що Perplexity копіює власний контент дослівно, що може порушувати законодавство про авторське право.
- Конфіденційність даних: GDPR та CCPA вимагають чіткої інформації та механізмів відмови для обробки персональних даних. Секретні краулери можуть порушувати рамки згоди.
- Регуляторні дії: Закон про ШІ в ЄС (вступає в силу в 2026 році) вимагає прозорості в даних для навчання ШІ — непрозорий краулінг може спровокувати заходи примусу.
Стратегії пом’якшення та дотримання
Cloudflare вже оновив свої управляючі правила, щоб включити евристики, що націлені на приховані відбитки Perplexity. Оператори сайтів також можуть:
- Впровадити обмеження швидкості, пов’язані з виявленням аномалій у поведінці.
- Використовувати кастомні правила WAF, які фільтрують запити з невідповідними TLS-ідентифікаторами.
- Збільшити кількість URI-ловушок для затримання несанкціонованих краулерів.
- Моніторити журнали на предмет перескоку ASN та швидкої зміни IP.
Останні новини
Наприкінці липня 2025 року Perplexity оголосила про нову панель «Прозорість краулінгу» та оновлений robots.txt зі списком офіційних IP краулерів. Проте незалежні дослідники з Project Guardian повідомляють про продовження аномалій у трафіку, що свідчить про те, що прихована діяльність триває, незважаючи на публічні зобов’язання Perplexity.
Перспективи
З поширенням пошукових систем на базі штучного інтелекту важливо знайти баланс між відкритим доступом до інформації та повагою до уподобань операторів сайтів. Галузеві організації, включаючи IETF та W3C, планують провести робочі групи цієї осені для зміцнення стандартів управління ботами та дослідження цифрових прав для творців контенту.