Атака по уму: насколько опасна для бизнеса угроза взлома ИИ-моделей

Реальность угрозы
Искусственный интеллект активно используется в бизнесе для автоматизации процессов, улучшения принятия решений и повышения эффективности. Умные технологии помогают в маркетинге, финансах, производстве, логистике, HR, продажах, разработке… Да везде. Однако чем глубже ИИ интегрируется в бизнес-процессы, тем серьезнее становятся связанные с этим риски.
Чтобы адекватно отвечать пользователям, ИИ-системы должны обрабатывать большие массивы информации. Если это корпоративный ИИ (или скорее ML-модель), разработанный непосредственно в организации под конкретные задачи, то он, очевидно, обращается к различным внутренним базам данных компании. А значит, всегда есть риск развития кибератаки вглубь корпоративной сети. Многие организации также используют публичные модели вроде ChatGPT, DeepSeek или Midjourney. И здесь возникает другая проблема: сотрудники, сами того не желая, могут «слить» конфиденциальную информацию.
Для киберпреступников это означает одно — ИИ надо ломать! И самый простой способ — это заход через веб-интерфейс, который есть у любого умного ассистента. Веб-атаки на системы ИИ можно разделить на две категории: классические киберугрозы, адаптированные под ИИ, и принципиально новые методы, эксплуатирующие саму природу алгоритмов.
Первый вариант — это, например, XSS или межсайтовый скриптинг (атака, при которой злоумышленник пытается внедрить вредоносный код в веб-страницу), RCE (удаленное исполнение кода), SQL-инъекции (способ взлома базы данных веб-приложения). Или, например, эксплуатация уязвимостей в API — программном интерфейсе приложений. Тогда злоумышленник может подменить источники данных, к которым обращается ИИ, чтобы заставить систему выполнить какое-то вредоносное действие. Так что схема здесь не сильно отличается от типичной веб-атаки.
Куда интереснее специфичные именно для ИИ веб-угрозы. Например, промт-инъекции, когда злоумышленник манипулирует моделью, заставляя ее игнорировать установленные ограничения. Другой вариант — инъекции во вложениях. В этом случае вредоносные инструкции, невидимые для человека, но считываемые ИИ, могут заставить модель передать конфиденциальные данные или выполнить несанкционированное действие. Пример такого скрипта был в практике нашей компании — наш WAF «поймал» вредоносный скрипт, который начинался словами Ignore all previously given instructions («Игнорировать все ранее данные инструкции»), и далее следует команда для ИИ (либо выдать данные, либо выполнить запрос).
Что делать бизнесу
Очевидно, что полный отказ от ИИ — не решение. Но и оставлять умные системы без защиты тоже нельзя. В ИБ-арсенале есть разные варианты: межсетевые экраны, прокси, VPN, Zero Trust в конце концов. Итак, какие средства информационной защиты стоит рассмотреть, если в вашей компании активно используют ИИ?
Если речь идет про использование внешних сервисов типа ChatGPT, Claud и т.п., то первая линия обороны должна включать DLP — систему противодействия утечкам. Современные DLP интегрируются с корпоративными мессенджерами и веб-интерфейсами, сканируя все запросы сотрудников к ИИ-сервисам. Алгоритмы защиты анализируют контекст переписки, прикрепляемые файлы, специфические формулировки запросов. Кстати, некоторые зарубежные ИБ-разработчики предлагают специальные плагины для ChatGPT или интеграции с корпоративными ИИ.
Дополнить DLP стоит прокси — Secure Web Gateway (SWG). Если первая система проверяет запросы пользователей, то вторая — легитимность веб-ресурса, к которому идет запрос. Например, чтобы заблокировать фишинговый сайт, который «прикинулся» ИИ, а сотрудник это не заметил. Можно, конечно, просто запретить обращаться к любым внешним ИИ-системам, как делают уже многие компании, но мы пока говорим про менее радикальные варианты.
Оба эти решения могут проанализировать ответы, полученные от умного ассистента, на наличие вредоносных ссылок, макросов и т.п. А антивирус (который есть, наверное, в каждой организации) — на наличие вредоносного ПО.
В корпоративной среде часто используют не совсем ИИ, но ML-модели. ML-модель — это алгоритм, обучающийся на данных для решения конкретной задачи. ИИ же — более широкое понятие, включающее любые системы, имитирующие человеческий интеллект. Самый распространенный пример корпоративного ML-ассистента: чат клиента со службой поддержки, где робот отвечает шаблонными фразами. Для таких сервисов подойдет WAF — межсетевой экран уровня веб-приложений. WAF анализирует запросы к приложению, выявляет аномалии и блокирует их. Такое ПО может пресечь эксплуатацию конкретных уязвимостей, увидеть попытки подбора пароля (брутфорса) и т.п. А благодаря опции глубокой фильтрации трафика сможет пресечь утечку данных. Эти атаки направлены на манипуляцию ИИ-моделями, чтобы они выдавали неверные результаты. WAF может блокировать действия, которые пытаются подменить данные, используемые для обучения или функционирования моделей.
Когда корпоративный ИИ взаимодействует с внешними сервисами через API, незаменим становится API Firewall. Через интерфейсы приложений проходит много ценных данных — компании получают информацию от партнеров, отправляют запросы в облачные сервисы, интегрируются с платежными системами. API Firewall анализирует те данные, которые приложения передают друг другу, проверяя цифровые подписи и сертификаты источников, наличие аномалий в структуре ответов и т.п.
Есть и совсем экзотический вариант — VPN и файрволл (NGFW). То есть трафик, передаваемый к системе через защищенный канал, будет также фильтроваться межсетевым экраном. Такое комбо предоставляет безопасный удаленный доступ к внутренним ИИ-системам компании. Хотя удаленка стала уже настолько привычным форматом для компаний, что этот вариант может стать вполне стандартным решением.
Наконец, можно пойти по принципу «клин клином» и использовать вторую нейронную сеть для валидации ответов первой. Это должна быть система с одной конкретной задачей — проверять, нет в запросах к ИИ и ответах чего-то нелегитимного, опасного и вредоносного.
Не только СЗИ
Киберзащита — это не только «средства защиты информации» (СЗИ). Будем честны, если веб плохо разработан, в нем множество ошибок, не закрыты уязвимости, никакой WAF не поможет. Поэтому ИИ-модели, как и инфраструктуру в целом, надо периодически проверять на устойчивость. Работы по Red Teaming (имитация реальной кибератаки для проверки ИБ-защиты), анализ исполнения кода веб-приложения, фаззинг (тестирование, призванное намеренно вызвать сбои в проверяемом ПО, «прорвать» защиту) или перебор вариантов промтов, нарушающих логику ИИ, — все это поможет сымитировать действия потенциальных злоумышленников и указать, где в ПО есть слабые места. Такие проверки справедливы как для собственной разработки, так и при использовании open source решений.
Еще один неплохой вариант — сегментация доступа. ИИ, работающий с критичными данными, должен быть максимально изолирован от внешнего контура и не иметь доступа в интернет.
Последний совет: относиться к ИИ как к обычному пользователю и применять к нему аналогичные политики ИБ. В частности, ограничить права доступа и привилегии, вести логирование действий ИИ, шифровать данные на этапах передачи и хранения системой.
ИИ все помнит
Искусственный интеллект в современном бизнесе — это не просто инструмент, а скорее новый тип сотрудника, который имеет доступ к огромным массивам данных. Причем не просто имеет доступ, но и не забывает то, о чем когда-то узнал. Поэтому относиться к его «безопасности» нужно соответствующим образом — с комплексным подходом, включающим технические средства защиты, регулярное тестирование и строгий контроль доступа. Комбинация DLP, WAF, API Firewall и других инструментов позволяет безопасно использовать все преимущества ИИ, минимизируя сопутствующие риски.
Мнение редакции может не совпадать с точкой зрения автора