VK указала роботу от OpenAI не собирать данные с «Дзена»

Контентная платформа «Дзен» (принадлежит VK; MOEX: VKCO) указала, что роботу GPTBot от OpenAI (разработчик ChatGPT и GPT-4) запрещено обходить страницы сайта dzen.ru для сбора данных. «Ъ» обнаружил соответствующую директиву в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов. В пресс-службе VK объяснили «Ъ», что заблокировали GPTBot для снижения нагрузки на серверы «Дзена».

«Рекомендательная система "Дзена" — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 тысяч запросов в секунду. Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В "Дзене" регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам»,— сообщили в VK.

Файл robots.txt носит рекомендательный характер: технически ничто не запрещает роботам игнорировать прописанные в нем директивы. В 2019 году проект Internet Archive, занимающийся созданием архивных копий веб-сайтов, сообщил, что не будет следовать установкам из файла, однако к 2022 году отменил решение.

GPTBot используется для сбора информации, которая впоследствии используется для создания нейросетевых продуктов OpenAI. Компания не предоставляет доступ к ним в России и заблокировала доступ к сайту для пользователей из РФ. Подобные роботы-«обходчики» есть «Яндекса» и Google, с помощью которых поисковики поддерживают актуальные данные о сайтах. Обе компании также развивают свои нейросетевые продукты. При этом они позволяют администраторам сайтов отказывать в обслуживании роботов, созданных для нейросетей (YandexAdditional и Google-Extended, соответственно), но при этом не закрывать сайт от сборщиков информации для поисковой выдачи. В декабре 2023 года подведомственный Роскомнадзору Главный радиочастотный центр рекомендовал хостинг-провайдерам заблокировать обращения GPTBot.

Подробнее — в материале «Ъ» «И за бот ее бросает».

Юрий Литвиненко

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...