Как Cloudflare меняет правила игры для защиты контента в эпоху ИИ

  • Категория: AI Технологии
  • Дата: 3 октября 2025 г. в 14:30
  • Просмотров: 82

Обложка

Robots.txt – это своего рода "правила приличия" в интернете, небольшой файл на сайте, который указывает поисковым системам и ботам, что можно индексировать, а что нет. Раньше это работало неплохо, но с появлением ИИ все изменилось.

Современные ИИ-боты не просто индексируют сайты, они копируют контент, чтобы обучать чат-ботов и генерировать ответы. И, к сожалению, многие компании, занимающиеся ИИ, попросту игнорируют robots.txt или маскируют своих ботов, чтобы обойти ограничения.

Cloudflare, защищающая около 20% сайтов в интернете, обладает уникальной информацией о поведении этих ИИ-ботов. Именно поэтому компания представила Политику контентных сигналов – новый способ для владельцев сайтов указать, разрешено ли использовать их контент для обучения ИИ.

Что такое политика контентных сигналов от Cloudflare?

По сути, это расширение robots.txt, добавляющее больше конкретики для ботов. Теперь можно не просто указывать, какие страницы сканировать, а устанавливать правила использования контента после доступа к нему.

Предлагается три новых "сигнала":

  • search – разрешение на использование контента для создания поискового индекса и отображения ссылок в результатах поиска.
  • ai-input – разрешение на использование контента непосредственно в ответах ИИ, например, когда чат-бот использует информацию со страницы для ответа на вопрос.
  • ai-train – разрешение на использование контента для обучения или "тонкой настройки" ИИ-моделей.

Эти сигналы используют простые значения "да" или "нет". Например, сайт может разрешить отображение контента в поиске, но запретить его использование для обучения ИИ.

Cloudflare уже внедрила эту политику более чем на 3,8 миллионах доменов. По умолчанию для поиска установлено значение "да", для обучения ИИ – "нет", а для использования в ответах ИИ – нейтральное значение, пока владелец сайта не решит иначе.

Почему это важно, и какова роль Google?

The Google AI logo is being displayed on a smartphone with Gemini in the background in this photo illustration, taken in Brussels, Belgium, on February 8, 2024. (Photo by Jonathan Raa/NurPhoto via Getty Images)

The Google AI logo (Image credit: Getty Images | NurPhoto)

Несмотря на то, что это обновление – большой шаг вперед, некоторые боты по-прежнему могут игнорировать эти сигналы. Поэтому владельцам сайтов рекомендуется использовать дополнительные меры защиты, такие как брандмауэры веб-приложений, которые фильтруют трафик между сайтом и интернетом.

Также важна система управления ботами, использующая машинное обучение для выявления и блокировки вредоносного автоматизированного трафика, пропуская при этом реальных пользователей.

Даже если некоторые ИИ-боты решат игнорировать правила, новая политика укрепляет правовую позицию владельцев сайтов. Cloudflare представляет контентные сигналы как "резервирование прав", которое можно использовать в будущих судебных разбирательствах против ИИ-компаний.

Если ИИ-компании начнут уважать эти сигналы, это может стать новым стандартом для интернета. В противном случае, вероятны более жесткие меры блокировки и судебные иски.

Еще один важный момент – как Google обрабатывает своих ботов. Googlebot используется как для обычного поиска, так и для "обзоров" с использованием ИИ, что означает, что владельцы сайтов не могут отказаться от использования их контента в ИИ, не теряя при этом видимость в поиске.

Это создает несправедливый компромисс: либо разрешить Google использовать контент для ИИ, либо рисковать потерей трафика. Особенно уязвимы небольшие сайты, которые сильно зависят от поискового трафика Google.

Что ждет нас в будущем: ИИ-скрейпинг и монетизация

Радует, что Cloudflare предпринимает шаги для защиты сайтов от "нашествия" ИИ-ботов, которые сейчас собирают все, что находится в открытом доступе в интернете. Кажется, что даже ChatGPT обучается на всем подряд. Недавняя видеомодель Sora 2 способна воссоздать миссии из Cyberpunk 2077, и сомнительно, что на использование этого контента было получено разрешение.

То же самое касается видеороликов с Марио или Пикачу. Вряд ли Nintendo оставит такое без внимания, но, учитывая ее историю, компания скорее нацелится на небольшой фанатский проект, чем на крупную ИИ-компанию.

Cloudflare также тестирует функцию "pay-per-crawl", которая позволит владельцам сайтов взимать плату с ИИ-ботов за каждый доступ к сайту. Если бот не предоставит платежные данные, он получит ошибку "402 Payment Required" (требуется оплата).

Мнение редакции MSReview: Cloudflare делает важный шаг к защите прав создателей контента в эпоху всепроникающего ИИ. Однако, эффективность этих мер во многом зависит от готовности крупных игроков, таких как Google, сотрудничать и уважать установленные правила. В противном случае, мы можем увидеть эскалацию конфликта между владельцами контента и ИИ-компаниями, что негативно скажется на развитии интернета.

MSReview Источник:
www.windowscentral.com
  • 0

Наши спонсоры
Фриланс-биржа с характером

TipTop.org — это удобный сервис для заработка, где заказчики размещают оплачиваемые проекты и задания. Система позволяет начать работу с выполнения простых заказов как новичкам, так и продвинутые возможности по публикации услуги для профессиональных фрилансеров




  • Комментарии
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.