Perplexity уличили в использовании "невидимых" краулеров для обхода запретов

  • Категория: AI Технологии
  • Дата: 5 августа 2025 г. в 05:20
  • Просмотров: 65

Обложка

Согласно расследованию компании Cloudflare, поисковая система Perplexity предположительно использует скрытые и незаявленные краулеры (программы для автоматического обхода сайтов), чтобы игнорировать правила, запрещающие сканирование сайтов. Cloudflare начала расследование после жалоб клиентов на то, что Perplexity продолжает получать доступ к их контенту, несмотря на установленные блокировки. По данным Cloudflare, Perplexity маскирует свои действия, изменяя User Agent (информацию, которую браузер передает сайту) и меняя исходные автономные сети (ASN). Утверждается, что эти "невидимые" краулеры Perplexity не могут получить доступ к файлам robots.txt (файлам, указывающим поисковым роботам, какие страницы сайта не следует индексировать), и, следовательно, не соблюдают указанные в них правила.

В связи с такой недобросовестной практикой, Cloudflare приняла решение исключить Perplexity из списка проверенных ботов, что повлияет на взаимодействие Perplexity с веб-сайтами, особенно с теми, которые используют сервисы Cloudflare для защиты.

Обычно Perplexity действует открыто, используя свой заявленный User Agent – PerplexityBot. Однако, когда веб-сайт блокирует его, он переключается на универсальный браузерный агент (Chrome/124.0.0.0 Safari/537.36). Этот скрытый краулер использует множество IP-адресов, не указанных в официальном диапазоне Perplexity, и постоянно меняет ASN. И это не единичный случай, а закономерность в поведении Perplexity, которую Cloudflare наблюдала на десятках тысяч доменов, с миллионами запросов ежедневно.

Другие компании, такие как OpenAI, которые также сканируют интернет, четко обозначают свои краулеры и соблюдают директивы robots.txt и сетевые блокировки. Cloudflare проверила краулеры ChatGPT и выяснила, что они прекращают сканирование при обнаружении запрещающей директивы или при появлении "черной страницы".

Cloudflare принимает меры против нечестных методов Perplexity

Чтобы решить эту проблему, Cloudflare добавила в свои управляемые правила специальные алгоритмы (эвристики), позволяющие блокировать скрытое сканирование. Клиенты Cloudflare, использующие правила управления ботами или правила вызова, уже защищены этими мерами. Эти средства защиты доступны всем клиентам, даже тем, кто использует бесплатные сервисы Cloudflare.

При эвристической блокировке Cloudflare не просто добавляет определенные краулеры в "черный список", а анализирует их поведение и блокирует тех, кто нарушает правила. По мере того как Perplexity меняет свою тактику, эти эвристические блокировщики должны быть в состоянии адаптироваться и продолжать борьбу с подобными нарушениями.

Cloudflare также заявила, что активно сотрудничает с техническими экспертами и специалистами по политике со всего мира, например, в рамках усилий IETF по стандартизации расширений для robots.txt. Это поможет установить четкие принципы, которые должны соблюдать все добросовестные операторы ботов.

Мнение редакции MSReview: Обнаружение и блокировка скрытых краулеров Perplexity со стороны Cloudflare - важный шаг в обеспечении честности и прозрачности в работе поисковых систем и AI-агентов. Данный инцидент подчеркивает необходимость разработки четких стандартов и механизмов контроля за деятельностью ботов в сети, чтобы защитить контент-провайдеров и гарантировать соблюдение их прав.

MSReview Источник:
www.neowin.net
  • 0




  • Комментарии
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.