Cloudflare закликає Google розділити AI та пошукові роботи

Передумови та Контекст
На початку 2025 року компанія Cloudflare представила експериментальні інструменти, які дозволяють операторам сайтів блокувати AI-орієнтовані краулери або запроваджувати плату за кожен перегляд. Ці функції спрямовані на захист контенту видавців від збору для створення резюме великих мовних моделей, відомих як “AI Огляди” або “Відповідні Бокси”, при цьому зберігаючи доступ для традиційного пошукового індексування.
Невдовзі після цього у вебмайстрів та SEO-спеціалістів виникли питання щодо того, як Cloudflare планує відрізняти AI та класичні пошукові боти Google. Минулого тижня тревел-блогер Емма Лоусон публічно поставила питання Cloudflare: чи нові правила блокуватимуть як AI, так і пошук без розрізнення?
Пропозиція Cloudflare та Технічні Механізми
Генеральний директор Cloudflare Метью Прінс звернувся до користувачів у X (раніше Twitter), щоб запевнити їх, що сегментоване блокування є можливим. Він виклав два ключові підходи:
- Піддомени для ботів: Призначити окремі DNS-адреси—
google-ai.crawler.google.com
таgoogle-search.crawler.google.com
—для ізоляції трафіку навчання AI від трафіку пошукового індексування. - Розширений синтаксис robots.txt: Ввести нові директиви, такі як
User-agent: GoogleAIOverview
іUser-agent: GoogleSearch
, щоб дозволити детальні правила для кожного краулера.
Ці зміни вимагатимуть від Google підтримувати два бінарних файли краулера або, принаймні, два різних рядки user-agent. Cloudflare вже почала тестування прототипу, перехоплюючи відомі IP-адреси Googlebot (наприклад, 66.249.64.0/19
) на краю мережі та застосовуючи умовні правила.
Технічний Аналіз: Сегментація Краулерів
- Перевірка IP: Використання
rDNS
таTLS-клієнтських сертифікатів
для аутентифікації краулерів. - Мета-теги Robots: Введення окремих
тегів поряд з класичними заголовками
robots
. - Контроль через API: Надання кінцевої точки API Cloudflare для реальних налаштувань, повертаючи HTTP 403 для заборонених запитів AI Overview та 200 для пошукових краулів.
Можлива Реакція Google та Технічні Обмеження
У відповідь на запити Google залишився невизначеним. Розподіл краулерів пов’язаний із значними інженерними витратами:
- Підтримка двох інфраструктур для кожного краулера підвищує експлуатаційні витрати приблизно на 20%.
- Синхронізація графіків краулерів для уникнення прогалин в індексації ставить під загрозу актуальність пошукових результатів.
- Токени OAuth або клієнтські сертифікати для аутентифікації AI-ботів можуть суперечити GDPR та місцевим вимогам захисту даних.
Внутрішні документи, надані The Wall Street Journal, свідчать про те, що Google віддає перевагу єдиному краулеру, щоб зменшити складність. Однак сегрегований підхід може підвищити прозорість у дотриманні нових регуляцій щодо відповідальності AI.
Регуляторна Ситуація та Юридичні Наслідки
Прінс натякнув на можливість законодавчих ініціатив у разі затримки переговорів. Потенційні рамки включають:
- Закон про цифрові послуги (ЄС): Може вимагати чіткого маркування ботів, що використовуються для навчання AI.
- Закон про дані США (запропонований): Може вимагати можливості відмови для комерційних AI-скреперів, подібно до регуляцій щодо спаму в електронній пошті.
- Розширення захисту DMCA: Може змусити платформи розкривати кінцеві точки краулерів для збереження захисту безпечної гавані.
Юридичні експерти, такі як Діана Гріффіт (професор кіберправа в Стенфорді), попереджають, що прийняття технологічно специфічного законодавства є повільним процесом—часто застарілим до моменту його набуття чинності. Проте Закон про AI ЄС, який, як очікується, буде завершено у 2026 році, може змусити великі платформи розкривати метадані ботів та шаблони user-agent.
Перспективи Галузі та Думки Експертів
“Розподіл краулерів стане парадигмальним зрушенням—аналогічно протоколам автентифікації електронної пошти, таким як SPF/DKIM,” заявив Джон Мюллер, керівник відносин з пошуковими системами Google, під час недавньої конференції. “Але ми повинні знайти баланс між доступом до даних та здоров’ям екосистеми.”
Консультант з SEO Марі Хейнс зазначає, що видавці часто покладаються на AI Огляди для отримання реферального трафіку. “Якщо ви заблокуєте AI-краули, ви можете зменшити навантаження на сервер, але втратите впізнаваність бренду в генеративних пошукових інтерфейсах,” пояснила вона.
У той же час, The Internet Archive стверджує, що будь-які нові бар’єри можуть відсторонити некомерційні краулери, які є важливими для цифрового збереження та академічних досліджень.
Можливий Вплив та Перспективи Майбутнього
Якщо зусилля Cloudflare увінчаються успіхом, ми можемо побачити нову веб-екосистему, де власники сайтів контролюють доступ до навчання AI через стандартизовані протоколи—схоже на існуючі заходи проти DDoS-атак та обмеження швидкості. В іншому випадку, безвихідь може змусити видавців впроваджувати кілька рішень CDN та контролю краулерів, що призведе до фрагментації збору даних в Інтернеті.
Cloudflare пообіцяла “інформувати спільноту” в міру просування переговорів. Аналітики очікують, що пілотні програми запустять у четвертому кварталі 2025 року, а ширші випуски відбудуться на початку 2026 року—можливо, в той же час, коли набуде чинності Закон про AI ЄС.