«Грязные данные»: что тормозит искусственный интеллект

Все больше компаний понимают, что устойчивый бизнес возможен только при умелом использовании новых технологий. Но чем больше управленческих решений принимается на основе искусственного интеллекта, тем острее встает вопрос о корректности первичных данных, на которых строится аналитика.

Борьба с «грязными данными» признана одним из глобальных технологических трендов 2020 года. О том, насколько скомпрометированные данные подрывают авторитет искусственного интеллекта, откуда они берутся и как предотвращать их появление в системе — в интервью Владимира Молодых, директора по разработке и внедрению ПО ИТ-компании «Инфосистемы Джет». 

Почему проблема релевантности данных сейчас стала актуальна для бизнеса?

Большие данные, машинное обучение, интернет вещей постепенно внедряются все большим количеством компаний из разных отраслей, не только из сферы высоких технологий. И часто оказывается, что на конкретном предприятии полезные технологии менее плодотворны, чем в футуристических обзорах или обещаниях вендоров. Компании строят дата-центры, создают хранилища данных, начинают собирать данные, покупают решения для их обработки, а потом не используют. И происходит то, что мы называем «гниением данных». 

Даже если на старте собирают те данные, которые нужны, то далее, при невыстроенных организационных и технических процессах контроля за качеством данных, они постепенно становятся все менее релевантными. Сегодня кто-то задел плечом камеру, которая снимает производственный процесс, и вот уже хранилище накапливает фото или видео угла стены. Завтра датчик на производственной линии сломался и вместо ценных данных пишет в хранилище мусор. Послезавтра склад внедрил новую систему автоматизации или кладовщик придумал способ, как воровать изделия, специфическим образом отображая это в хранилище. 

Обычно разбираться с «гниющими данными» начинают тогда, когда при попытке их использования выясняется, что они абсолютно не применимы, или произошла утечка данных, или заканчивается место в хранилище. Правда, если заканчивается место, то всегда можно купить дополнительное железо. 

 

Если бы данными пользовались в режиме онлайн, «гниения» не возникало бы. Что этому мешает?

Мешает отсутствие надлежащего уровня организационной культуры. Разные люди и подразделения могут влиять на данные с вполне конструктивными целями. Но сейчас, когда данные используются не только для автоматизации нужного им технологического процесса, а для той же предиктивной аналитики, тому, кто меняет данные, следует лишний раз задуматься, на что это изменение повлияет. Многократно наблюдал, как одно подразделение создает нужную предсказательную модель, а другое в это время молча меняет станок посреди производственной линии, и работы первого подразделения идут насмарку. То есть нужен организационный подход к управлению данными на уровне всего бизнеса.

Мешает отсутствие опыта реальных проектов с применением больших данных. Десятки и сотни компаний и людей проводили хакатоны по задачам с использованием больших данных. Но только единицы смогли довести проекты до того, что эти большие данные и аналитика на их основе системно приносят пользу бизнесу. Распространенная ситуация, когда компания создает «озеро данных», потому что эти «озера» создают все. Но зачем оно нужно, как именно оно будет применяться в реальной жизни, имеет крайне смутное представление. Пусть даже на защите бюджета они демонстрируют красивую и футуристичную презентацию. А потом, когда речь заходит про использование данных, проекты стоят: выясняется, что собрали не то и не так. Например, чтобы удешевить решение, сделали так, что данные поступают раз в сутки, а они применимы, только если задержка не более одной минуты.

Или вот такой пример из практики. Мы строили модель, которая прогнозировала вероятность брака итогового изделия в зависимости от настроек производственной линии, комплектующих и т. п. Ничего не получалось до тех пор, пока не выяснилось, что если конкретным исполнителям удавалось «впарить» бракованное изделие, то они задним числом корректировали запись, как будто брака не было. Делали они это, понятное дело, чтобы максимизировать свою премию. Мы это смогли выяснить, анализируя логи и данные смежных систем. Когда разобрались, модель построили. То есть тут могут помочь как организационные меры по недопущению таких нарушений, так и технические — по аналитическому выявлению такого рода поведения.

Я привел один пример, но подобных подводных камней на одном производстве мы вместе с менеджментом встречали больше десятка. Мы стараемся не входить в проект, если нам не могут обеспечить присутствие специалиста по работе с данными непосредственно при производственном процессе. 

 

Какие имеются решения для предотвращения использования «грязных данных»? 

Системный подход должен включать в себя образовательные, организационные (в том числе мотивационные) и технические меры, которые будут обеспечивать постоянство качества данных. И главное, данные должны постоянно использоваться, а производственные процессы, применяющие эти данные, должны включать в себя постоянный контроль за данными.

При этом часто бывает невозможно решить задачу на уровне одного подразделения — нужно учитывать влияние смежных подразделений. У нас была задача, когда мы делали индивидуальные рекомендации для розничной сети. На исторических данных все работало нормально, а в эксплуатации бывали случаи, когда индивидуальные рекомендации не давали вообще никакого эффекта. Начали разбирать и быстро выяснили проблему. Одна наша программистка была клиенткой этой сети. И у нее в мессенджере два сообщения от сети. Первое — наше, индивидуальное предложение с небольшой индивидуальной скидкой на конкретный товар. И второе — общая рассылка по сети, что по случаю дня рождения скидка на все 20%. Естественно, на фоне этого эффект от нашего сообщения нулевой.

 

Зачем компании обращаются к системному интегратору, а не к консультантам, например? 

У нас есть опыт десятков внедрений в разных отраслях. Мы знаем типовые сложности, с которыми клиенты сталкиваются именно в России. В то же время разбираемся и в железе, и в информационной безопасности, и во всех сопровождающих историях. То есть мы можем оказать комплексную услугу. Компании легче иметь одного ответственного подрядчика, который в состоянии закрыть все потребности, связанные с внедрением технологий от поставки оборудования до разработки всего необходимого программного обеспечения, создания BI-системы, «озера данных» и моделей для аналитики.

 

Каковы типичные ошибки компаний, которые хотят монетизировать свои данные и заинтересованы в их чистоте? 

Для успеха любого внедрения технологий работы с данными важно, чтобы внутри предприятия был человек, который в состоянии «драйвить» изменения. 

Опишу типичную ситуацию. Правление решает, что цифровизация нужна, выделяются деньги, кому-то в ИТ-отделе или специально нанятому директору по цифровой трансформации ставится эта задача. Дальше создается дирекция по работе с информацией, набирается талантливая команда. Потом они приезжают на региональный завод, где никто с «этими хипстерами» не хочет разговаривать. Либо говорят одно, а думают другое, либо открыто саботируют. Аппаратный вес директора по производству и его слово для рабочих гораздо более значимы, чем у приехавшего директора по трансформации. В девяти из десяти случаев результат столкновения планов с реальностью предсказуем. 

 

Есть ли выход? 

Нам просто нужно прожить эту историю в режиме онлайн. Практика постепенно учит. С внедрением в промышленности ERP-систем 15 лет назад тоже поначалу все было непросто. Их внедряли для галочки, и многие не верили в пользу, а теперь много успешных кейсов. 

Раньше всех научились работать с данными в высокотехнологичных индустриях, потом в банковской сфере, в ретейле. В промышленности степень технологической зрелости иная. Бизнесу поначалу тяжело даже осознать важность этого процесса, не говоря уже о внедрении полученных результатов в производственный процесс. 

Для успеха работы с данными в промышленности очень важно, чтобы процесс «драйвил» человек с полномочиями в ранге вице-президента или сопоставимой позиции, способный скоординированно заставлять все подразделения двигаться в одну сторону.

Важно, чтобы проект допускал на стартовом этапе логику R&D, когда есть исследование, а не просто подход: вот время, вот ресурсы — обеспечь результат. Вначале могут уточняться цель, метрики, вскрываться подробности. И те же закупки должны быть к этому готовы.

Однажды мы внедряли проект в двух аптечных сетях. В одной получилось увеличить средний чек за счет того, что система подсказывала провизору, что рекомендовать дополнительно к покупке клиента, а в другой настроить рекомендации не удалось. То, что сработало на предприятии А, может не сработать на предприятии Б в силу некоторых различных стартовых условий и данных. Поэтому важно исследовать гипотезы перед проектом внедрения.

Но потом не менее важно уметь перейти от логики исследования к логике полноценного комплексного внедрения. И многие на этом переходе ломаются.

 

А что является самым важным для компаний? 

Сейчас для всех важна эффективность производственных процессов. Если одна построенная на больших данных и машинном обучении модель позволит снизить брак на 3%, другая — сэкономить 2% сырья, третья — разгрузить на 10% склад, совокупный эффект будет существенен для экономики предприятия. Тот, кто первым сможет комплексно это сделать, вырывается вперед и обгоняет остальных. Среди наших клиентов в отдельных отраслях есть предприятия, конкурентоспособные на глобальном уровне. Рывок эффективности на 10–20% позволит им вырваться в мировые лидеры.

* На правах рекламы

https://jet.su/