Почти 30 лет интернет держался на простом «джентльменском соглашении». Его основой стал файл robots.txt — простой текстовый документ, с помощью которого владельцы сайтов указывают, какие роботы могут сканировать их страницы, а какие нет.
Изначально robots.txt создавался для контроля поисковых систем и архивных сервисов. Поисковики получали доступ к контенту и взамен направляли пользователей обратно на сайты. Эта модель работала десятилетиями и стала де-факто стандартом для всего интернета.
Теперь ИИ-боты приходят на сайты не для того, чтобы проиндексировать их для поиска, а чтобы «скормить» информацию нейросетям. Владелец сайта при этом не получает ничего: ни новых посетителей, ни упоминаний, ни денег. Нейросеть просто забирает знания, чтобы потом пересказать их пользователю в своем чате.

Из-за этого в интернете начался настоящий бунт. Крупные платформы и СМИ — от The New York Times до Wikipedia — начали массово «закрывать» свои двери. По данным статистики, уже больше половины крупных мировых изданий внесли в свои списки запрет для GPTBot (краулера компании OpenAI).
Однако здесь скрывается главная техническая ловушка: файл robots.txt не является юридическим документом, это лишь рекомендация. Некоторые сервисы уже официально заявили, что будут игнорировать эти запреты, а другие боты научились «маскироваться», чтобы их не узнали.
Ситуацию осложняет то, что многие боты стали «двуликими». Например, бот от Microsoft одновременно ищет информацию для поисковика Bing ( полезно для сайта) и собирает данные для обучения ИИ (что владельцам не нравится). Получается ловушка: заблокируешь его — исчезнешь из поиска, оставишь — твой контент заберут бесплатно.
Крупные игроки, включая Google, уже заявляют о необходимости новых стандартов управления доступом к данным — более детальных и формализованных, чем robots.txt. Однако таких механизмов пока не существует.
Вопрос о том, чем его заменят — техническими стандартами, юридическим регулированием или новыми соглашениями между участниками рынка, — остаётся открытым.
Join the conversation.