К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего броузера.

«Коммерсантъ» узнал о блокировке сбора данных GPT-ботом на «Дзене»


VK указала роботу от OpenAI не собирать данные с контент-платформы «Дзен», выяснил «Коммерсантъ». В компании заявили, что заблокировали GPTBot для снижения нагрузки на серверы «Дзена». Технически робот может игнорировать соответствующую директиву в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов, пишет газета

Контентная платформа «Дзен» (владелец — VK) указала, что роботу GPTBot от OpenAI запрещено для сбора данных обходить ее страницы. Соответствующую директиву обнаружил «Коммерсантъ» в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов.

В декабре 2023 года подведомственный Роскомнадзору Главный радиочастотный центр рекомендовал хостинг-провайдерам заблокировать обращения GPTBot, пишет газета. GPTBot используется для сбора информации, которую OpenAI применяет для создания нейросетевых продуктов. Компания не предоставляет доступ к ним в России и заблокировала доступ к сайту для пользователей из России.

В пресс-службе VK сообщили, что заблокировали GPTBot для снижения нагрузки на серверы «Дзена». «Рекомендательная система «Дзена» — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 тысяч запросов в секунду», — рассказали в пресс-службе VK. Представитель компании объяснил решение не включать GPTBot от OpenAI в файл необходимостью «грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку».

 

«В «Дзене» регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам», — добавили в компании — владельце контент-платформы. Технически ничто не запрещает роботам игнорировать прописанные в файле robots.txt директивы — сам файл носит рекомендательный характер, отмечает при этом «Коммерсантъ». 

В 2019 году проект Internet Archive, занимающийся созданием архивных копий веб-сайтов, заявил, что не будет следовать установкам из файла. Позднее, к 2022 году, проект отменил свое решение. Аналогичные роботы есть у «Яндекса» и Google, с помощью «обходчиков» поисковые системы поддерживают актуальные данные о сайтах.

 

Обе компании занимаются созданием и развитием собственных нейросетей. Они разрешают администраторам сайтов отказывать в обслуживании роботов, созданных для нейросетей (у «Яндекса» это YandexAdditional, у Google — Google-Extended), но не позволяют блокировать сайт от сборщиков информации для поисковой выдачи. 

Мы в соцсетях:

Мобильное приложение Forbes Russia на Android

На сайте работает синтез речи

иконка маруси

Рассылка:

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2024
16+