Открытый вопрос: что не так с перезапуском национального портала данных data.gov.ru

Концепции, смыслы и идеология
Открытые данные в мире возникли из трех направлений, развивавшихся параллельно.
- Открытость государства
Повышение доверия к правительствам через обеспечение доступности данных и информации о деятельности в целом. Это возможность запрашивать информацию — в мире это называется FOI (Freedom of Information, дословно — свобода информации). Открытость по запросу переходит к открытости по умолчанию, когда органы власти публикуют сведения о своей деятельности проактивно. Основными бенефициарами этого направления всегда были журналисты, аналитики, общественные деятели, все, кто заинтересован в ответственной и подотчетной гражданам власти.
- Современная технологическая инфраструктура
Развитые государства по всему миру взаимодействуют с большим числом технологических компаний и технологических команд в современном бизнесе. Многие данные и технологические сервисы имеют гарантированную подтвержденную востребованность в среде разработчиков и аналитиков. Открытость этих данных и программных интерфейсов значительно снижает издержки для бизнеса.
- Открытый доступ
Параллельно с движением за открытость государства развивалось движение за воспроизводимость научных исследований и максимально полную публикацию всех видов научных результатов. Это движение охватывает публикацию научных статей, книг, диссертаций как наиболее распространенных научных продуктов, но не ограничено ими, в эту же область попадают созданные исследователями программные продукты и базы данных.
Российская действительность
В России за открытые данные всегда отвечало Минэкономразвития. Оно же отвечало и за принятие в 2009 году закона, регламентирующего запрос информации у органов власти. После в этот закон были включены положения о публикации открытых данных.
Именно в Минэкономразвития создавалась первая версия портала data.gov.ru. Работа была тесно связана с деятельностью «Открытого правительства» при премьер-министре Дмитрии Медведеве. Публичность данных как часть повестки открытости государства — это важный инструмент гражданского общества и общественного контроля. На этом и был сделан смысловой акцент, когда российские органы власти активно публиковали данные.
В какой-то момент на национальном портале data.gov.ru, существовавшем до 2023 года, было более 24 000 наборов данных, а объем информации превышал 14 ГБ в сжатом виде. Это не так много с точки зрения того, что содержится в других источниках, однако существенно больше опубликованного на перезапущенном портале. О реальных его цифрах ниже, гораздо важнее то, в какой среде он создавался.
Важное отличие России от многих развивающихся и значительной части развитых стран — огромные расходы на информатизацию на протяжении последних лет. Созданы многочисленные государственные информационные системы (ГИС), с помощью которых граждане получали сведения о госрасходах, закупках, контрактах, торгах, законах, статистике и многом другом. Объемы публикуемых данных были более чем существенны. К примеру:
- в Единой межведомственной информационной системе (ЕМИСС) опубликовано чуть менее 7000 показателей, каждый из которых можно рассматривать как отдельный набор данных. Их общий объем составляет чуть менее 4,4 ГБ данных в сжатом виде;
- на Едином портале бюджетной системы (ЕПБС) публикуется несколько сотен гигабайт данных о расходах и доходах бюджетов, а также иных баз, относящихся к бюджетной системе страны;
- на портале официального опубликования нормативных актов — десятки гигабайт текстов и десятки терабайт сканов законов, постановлений и иных нормативных документов.
Все эти системы имеют программные интерфейсы и автоматически создаваемые наборы данных, доступные напрямую. Доступность этих данных — не только вопрос открытости государства. Это то, что можно отнести к современной технологической инфраструктуре.
Технологии имеют значение
Для IT-компаний и стартапов открытые данные — инструмент снижения издержек. Многие цифровые проекты возможны только из-за существования таких глобальных проектов, как OpenStreetMap или Wikidata. Благодаря открытым данным существует конкурентный рынок проверки контрагентов.
В России немало органов власти, хорошо понимающих эти потребности и предоставляющих свои данные как продуманные data-продукты. ФНС, Федеральное казначейство, Минфин и многие другие не только публикуют данные большого объема в виде структурированных баз и программных интерфейсов (API). Их продукты не идеальны, да и сами данные не всегда столь хороши, как хотелось бы, но их работа востребована и интегрирована в многочисленные бизнес-процессы.
Многие национальные порталы в мире это учитывают. Во Франции, Великобритании, Сингапуре, США операторы национальных порталов создают специальные интерфейсы для массовой выгрузки данных большого объема технологическими пользователями.
Статистические службы в мире (Всемирный банк, ВОЗ, Международная организация труда и другие) предоставляют данные для массовой выгрузки. Что же, в России нет опыта и специалистов, которые обладали бы схожим видением? Это не так: к примеру, официальная статистика статкомитета СНГ доступна и пригодна для разработчиков. Ею пользуются именно потому, что технологический интерфейс дает удобный доступ к этим данным.
Востребованность данных технологическими компаниями касается не просто денег, а умных денег, то есть финансов тех, кто вкладывается в цифровые продукты и понимает, какие данные для них необходимы. Это направление мысли и действия гораздо ближе Минцифры, чем Минэкономразвития. Почему же портал открытых данных создают не они? По причине унаследованности его природы от открытости государства и, может быть, потому, что он мог бы быть подспорьем для экономистов.
Оставим в стороне вопрос, почему в портале открытых данных, за который отвечает Минэкономразвития, нет данных по экономике. Это отдельная тема. Среди данных, создаваемых исследователями, есть одна большая история, наиболее актуальная в мире прямо сейчас. Это данные для обучения языковых моделей и ИИ.
Данные для ИИ
Все бюрократии мира очень неповоротливы, но и они постепенно ощущают эффект от ажиотажа вокруг ИИ, растущего числа открытых моделей, наборов данных для их обучения и сервисов для интеграции инструментов и данных с языковыми моделями. Самые яркие примеры концентрации данных для ИИ — коммерческие порталы Hugging Face и Kaggle, известные каждому ИИ-инженеру и специалисту по data science.
Государственные исследовательские центры наравне с коммерческими компаниями публикуют там наборы данных под свободными лицензиями. В среде создателей порталов открытых данных активно обсуждается то, где такие датасеты должны публиковаться. На порталах открытых данных? На порталах открытого доступа (с данными для исследователей)? Или на тех же платформах вроде Kaggle и Hugging Face?
Могу лишь сказать, что в России немало организаций в сфере ИИ, размещающих свои датасеты на международных ресурсах или собственных сайтах. Почему их нет и, похоже, не планируется их появление на data.gov.ru, вызывает лишь удивление. Создавать портал данных в 2025 году, когда индустрия ИИ является чуть ли не главным потребителем данных, — это очень странно и даже неестественно.
Неприятные выводы
Этот текст начался с цифр, цифрами и закончится. 5000 наборов данных на портале открытых данных data.gov.ru имеют общий сжатый объем около 100 МБ. Столь скромные объемы вызваны тем, что более 80% всех наборов данных имеют объем менее 100 строк. У очень многих наборов лишь одна строка — это контакты той организации, от имени которой они опубликованы. А 84% всех наборов данных были созданы более шести лет назад, в 2019 году и ранее.
К сожалению, приходится констатировать: новая версия национального портала открытых данных data.gov.ru даже хуже предыдущей. До 2023 года к этому порталу также было очень много вопросов, но новая версия просто бесполезна. Это не объяснить лишь тем, что политическая целесообразность последних трех лет стала доминировать над открытостью государства, и одной лишь установкой на ограничение в распространении информации в России.
Есть один важнейший критерий, которому этот портал не соответствует, — критическая необходимость. Что случится, если завтра сервер, на котором он работает, сломается, а исходный код и данные окажутся безвозвратно потеряны? Ничего. Не будет тех, у кого от этого сломается бизнес, не будет тех, кто потеряет важный компонент своей научной или аналитической работы, не будет тех, кто завалит министерство обращениями.
Этот портал не был и в текущем состоянии не станет критическим элементом экономики данных. В отличие от открытых данных и потребности в них, которые были, есть и останутся, что бы ни происходило.
Мнение редакции может не совпадать с точкой зрения автора
