Бизнес облачается в синтетику: данные от ИИ как новый стратегический актив компаний

Нехватка данных сама по себе — не надуманная проблема, а зачастую печальная реальность бизнеса. Многие компании в самых разных отраслях сегодня сталкиваются с одной и той же проблемой при попытках системного внедрения ИИ для специфических профильных задач: они хотят дообучить ИИ-модель под свои цели, автоматизировать конкретный процесс, улучшить рекомендации, выявлять брак — и упираются в проблему данных.
Неудивительно, что, начиная с 2025 года, начал быстро расти и почти мгновенно достиг миллиардных (в долларах) размеров рынок синтетических данных. В основе такого роста, помимо действительно скудеющего потока новых данных, лежат еще два обстоятельства. Во-первых, регулирующие инстанции создали массу юридических сложностей для доступа к необходимым данным. Очень жесткий европейский GDPR (General Data Protection Regulation, Общий регламент по защите данных — нормативный акт Евросоюза, определяет правила сбора, обработки, хранения и распространения персональных данных), да и российское законодательство о персональных данных делают невозможным доступ разработчиков моделей к важным массивам, а деперсонализация подчас портит качество данных.
Во-вторых, по мере роста качества моделей, особенно используемых в бизнесе, все более важным становится их адекватное поведение в редких и нетипичных случаях: мошеннических транзакций мало в общем потоке, производственный брак редкого типа или редкая медицинская патология плохо распознаются моделями. «Синтетика» во всех этих случаях незаменима: аккуратное тиражирование редких, но важных сценариев или событий позволяет поднять качество работы моделей там, где это важнее всего.
Следует подчеркнуть, что качественная «синтетика» не создается на пустом месте, она не заменяет реальные данные полностью, а встраивается в гибридный пайплайн — реальные данные создают базис, а «синтетика» масштабирует разнообразие. Исследования показывают, что получающиеся в итоге гибридные датасеты стабильно превосходят как чисто реальные, так и чисто синтетические выборки.
Лишь один пример: инциденты на IT-инфраструктуре, которые нередко приобретают национальный или глобальный масштаб и обходятся очень дорого, все чаще оказываются связаны не с действиями злоумышленников, а со вполне плановыми обновлениями софта, в ходе которых что-то пошло не так. Но, к счастью для нас и к несчастью для разработчиков, число таких критических инцидентов невелико, обучающих данных для надежно работающей модели предсказания инцидента критически не хватает. Использование правильно сгенерированной синтетики повысило точность предсказаний на 21%, что очень немало, учитывая потери от каждого инцидента.
Синтетические данные, конечно, привносят свои риски и забывать про них нельзя: если упомянутую выше модель кормить одной «синтетикой», со временем она начинает жить в своей виртуальной реальности, теряет разнообразие и деградирует. Кроме этого, «синтетика» способна усиливать уже присутствующие в оригинальных данных ошибки и предвзятости.
В условиях массового развертывания ИИ-моделей для работы во все более разнообразных бизнес-сценариях сейчас важно помнить, что синтетические данные — это уже не техническая опция для ML-команды в IT-подразделении. Это стратегический актив, который определяет, способна ли компания обучать модели там, где конкурент остановился из-за нехватки данных, регуляторного запрета или высокой стоимости разметки. Разрыв между теми, кто освоил этот инструмент, и теми, кто нет, будет нарастать экспоненциально, потому что «синтетика» масштабируется, а сбор реальных данных — все чаще нет.
Налаживание цикла «реальные данные → синтетическая генерация → валидация → обучение → улучшенная генерация» сейчас формирует долгосрочные преимущества, которые не получится просто скопировать: растет скорость запуска ИИ-продуктов, появляется юридическое преимущество на зарегулированных рынках, снимается проблема разметки данных (в «синтетике» разметка присутствует автоматически и не требует никакого дополнительного времени или усилий). А самое, пожалуй, важное в том, что появляется устойчивость к так называемому «длинному хвосту»: компания, умеющая моделировать (а значит, и надежно предсказывать) редкие, но важные события, строит более надежные системы безопасности, детектирования фрода и контроля качества.
Если же отвлечься от технических и бизнес-аспектов, то происходящий сейчас расцвет синтетических данных и связанный с ним прогресс, на мой взгляд, иллюстрируют важнейшую черту многих теперешних споров вокруг перспектив ИИ. Препятствие, которое громко провозглашается непреодолимой стеной и на первый взгляд таковой даже выглядит, которое объявляется фундаментальным ограничением, очень логично сформулированным и, на первый взгляд, обоснованным и неоспоримым, оказывается в итоге вполне преодолимым и вовсе даже не стеной. Если, конечно, на это преодоление брошены интеллектуальные ресурсы талантливых и одержимых людей, поддержанные финансовыми и вычислительными ресурсами компаний, в которых эти таланты работают.
Мнение редакции может не совпадать с точкой зрения автора
