ВТБ. Помогаем делом

Поисковик для банковских данных

Как и зачем банк ВТБ создал гигантскую систему управления данными

Что такое система управления данными, и какую пользу она приносит ВТБ?

В ландшафте банка ВТБ тысячи информационных систем, объемы данных в которых исчисляются сотнями терабайт. Это много тысяч таблиц баз данных и миллионы полей. Без четкой карты в таком огромном пространстве данных тяжело ориентироваться. Это сопоставимо с возвращением во времена, когда не было навигатора. Для построения маршрута автомобиля к пункту назначения необходимо было найти печатную карту района, карандашом прочертить путь, приходилось останавливаться и спрашивать дорогу, из-за чего время в пути оказывалось малопрогнозируемо.

Процесс поиска маршрута без навигатора похож на процесс поиска данных без системы управления данными. Чтобы найти единицу данных — конкретный атрибут, его описание, расположение в ИТ-системе, — приходится тратить большое количество времени на изучение технической документации, опросы сотрудников. В процессе разработки новых витрин хранилищ данных или отчетности только на стадию оценки, анализа и проектирования уходит от одного до пяти месяцев в зависимости от объема требуемых показателей.

Для снижения затрат и роста эффективности процессов ВТБ решил создать единую систему управления данными. Это комплексная платформа, состоящая из трех модулей: бизнес-глоссарий, каталог метаданных и модуль контроля и мониторинга качества данных. Платформа позволяет сотрудникам удобно искать данные, обеспечивает их достоверность, непротиворечивость и актуальность. Мы рассчитываем, что по итогам первого года работы система позволит сократить затраты на поиск и обработку данных на 7%, а в последующие годы эффект достигнет 20%.

ВТБ создал такую систему всего за год и стал первым крупным банком в России, который не только запустил платформу, но и разработал комплексную стратегию управления данными. Помимо технологической составляющей — внедрения инструментов управления данными, была разработана функционально-ролевая модель участников процессов управления данными, введена роль владельца данных, выстроена структура управления: коллегиальные органы, рассматривающие вопросы, связанные с данными и их качеством на рабочем уровне и на уровне топ-менеджмента банка.

Система начала работать в марте 2020 года, а в начале 2021 года за реализацию этого проекта банк получил ИТ-премию Global CIO как «Проект года».

Бизнес-глоссарий

Бизнес-глоссарий — это словарь бизнес-терминов банка. Для каждого термина в нем зафиксированы описание, методология расчета, правила проверок качества содержания атрибута, владелец данных (подразделение, отвечающее за правила определения термина, правила контроля качества его содержания) и его реквизиты для контакта. Приведем пример. Для целей управленческой отчетности необходимо подсчитать количество активных клиентов. Но для начала надо выяснить и найти информацию о том, что входит в понятие «активный клиент». Различаются ли определения «активного клиента» для розничного и корпоративного сегмента? Как трактует понятие «активный клиент» регулятор для целей регуляторной отчетности? Ответы на все эти вопросы пользователь может быстро найти в системе управления данными. Целевая аудитория бизнес-глоссария — все сотрудники банка, преимущественно пользователи подразделений разных видов отчетности, аналитики данных. На текущий момент глоссарий ВТБ содержит описания более 12 000 бизнес-терминов.

Каталог метаданных

Метаданные — простыми словами это «данные о данных», тот самый маршрут — карта данных с отрисовкой зависимостей между физическими объектами. Модуль позволяет проанализировать текущее расположение сущностей и атрибутов данных в информационных системах с целью формирования требований на доработку. Также модуль является незаменимым инструментом для анализа происхождения данных при решении инцидентов качества данных.

Рассмотрим на примере решения одной из задач проекта переход на целевую АБС. Необходимо было проанализировать, какие потоки данных будут затронуты при изменении системы-источника для хранилища данных и миграции данных из одной АБС в другую. Чтобы определить перечень потоков данных, требующих доработки внутри хранилищ данных, и бизнес-функционала, на который повлияет данное изменение, используется каталог метаданных, где визуально отображается весь путь данных от оперативных систем до витрин хранилищ данных.

Модуль контроля и мониторинга качества данных

Функционал модуля контроля качества данных позволяет фиксировать требования к качеству данных, устанавливать правила и алгоритмы проверок качества, указывать пороговые значения качества для каждого элемента данных, а также осуществлять мониторинг состояния данных на основе информации о произведенных проверках, вести учет всех имеющихся проверок качества данных. Инструмент позволяет в реальном времени видеть состояние данных в каждой из информационных систем, к которой подключен модуль, и таким образом делать вывод о применимости данных в своих бизнес-процессах. Также модуль используется менеджерами качества данных для оперативного анализа и организации исправления ошибок качества данных. На текущий момент около 1200 проверок качества данных поставлены на мониторинг и контроль в данной системе.

Как внедряли: классика и Agile

Для внедрения и работы с системой в ВТБ использовали два разных подхода. На этапе внедрения системы команда работала по принципам ведения водопадных проектов. Ядро команды составили сотрудники ВТБ. На сложных этапах их было до 20 человек, еще 10 человек привлекли от вендора: они консультировали команду по настройке и внедрению системы, более 50 сотрудников из различных подразделений участвовали в работе на отдельных этапах. После запуска системы в промышленную эксплуатацию команда трансформировалась в три профильные операционные группы, работающие по принципам Agile. Кроме того, появился отдельный стрим, который отвечает за контроль и мониторинг качества данных в периметре аналитических систем.

Внедрение системы управления данными — это только первый шаг, позволяющий осуществлять четкий и прозрачный учет, контроль и мониторинг данных банка. На текущий момент мы покрываем периметр аналитического контура, имея настройку интеграции преимущественно с компонентами платформы данных.

Далее мы планируем масштабировать систему управления данными, подключая наиболее критичные системы-источники как для внесения описаний атрибутов в бизнес-глоссарий и расширения карты потоков данных, так и для увеличения покрытия проверками качества данных ландшафта банка.