К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Сложнее, чем тест Тьюринга: как ИИ-агенты проходят проверку в Альфа-Банке

АО «Альфа-Банк»
Изображение: Альфа-Банк
Изображение: Альфа-Банк
В идеале ИИ-агенты должны уметь выполнять задачи и принимать решения без участия человека. По сути, каждый такой агент — это цифровой сотрудник нового поколения. При этом для работников-людей давно придуманы методы оценки труда и установлены ключевые показатели эффективности. ИИ-агентов же оценивают по инженерным бенчмаркам — метрикам точности и скорости, которые ничего не говорят о вкладе агента в выручку или сокращение издержек. В Альфа-Банке решили это изменить и начали тестировать ИИ-агентов как сотрудников. Как устроен этот подход и почему он может задать отраслевой стандарт для банковского сектора?

«Будущее уже наступило, просто неравномерно распределено»

Изображение: Альфа-Банк

Американского писателя-фантаста Филипа Дика интересовал вопрос: как можно отличить настоящего человека от его подмены — доппельгангера? Это может быть робот-шпион в рассказе «Самозванец» и снятом по нему фильме «Пришелец». Или же репликант, созданный по образу и подобию человека, как в повести «Снятся ли андроидам электроовцы» и культовом фильме в жанре киберпанка «Бегущий по лезвию».

Во вселенной Дика выявить репликантов можно с помощью теста Войта-Кампфа, придуманного учеными в СССР. Испытуемому задают вопросы или показывают контент, связанный с сильными моральными переживаниями. Одновременно отслеживают его физиологические реакции — расширение зрачков или учащение сердцебиения. Андроиды — существа с искусственным интеллектом, эмпатия им чужда, а значит, и внешних проявлений эмоций у них не наблюдается.

В нашем мире пока нет задачи понять, робот перед вами или человек. Но уже приходится определять, насколько эффективен программный ИИ-агент, лучше ли он справляется с работой, чем специалисты-люди, окупаются ли инвестиции в его разработку и эксплуатацию. Однако оценка ИИ-агентов до недавнего времени проводилась инженерами по соответствию определенным техническим характеристикам. Реальная отдача для бизнеса и улучшение клиентского сервиса оставались в тени.

«Мы столкнулись с парадоксом: банки по всему миру вкладывают миллиарды в искусственный интеллект, но при этом не могут объективно измерить, хорошо ли он работает с позиции пользователя-человека. Стандартные бенчмарки из области машинного обучения не учитывают заботу о клиенте, удобство взаимодействия и реальную бизнес-ценность. Мы решили, что пора это изменить», — рассказывает Станислав Милых, руководитель дирекции ботов и ассистентов Альфа-Банка.

Как сравнить человека с виртуальным ассистентом

Изображение: Альфа-Банк

Если в доцифровые времена перед руководителями стояла относительно простая задача — оценить производительность сотрудников в своем подразделении, то сейчас она усложнилась. Теперь сравнивать нужно:

  • специалиста-человека;
  • простого бота, ориентированного на правила;
  • ИИ-агента, работающего на базе большой языковой модели (LLM) и доступных ему инструментов.

Человек получает зарплату, у него должен быть гарантированный режим труда и отдыха, отпуск, больничный и другие права и привилегии. Работа людей стоит дорого, но без них все равно невозможно обойтись даже в системе с высоким процентом автоматизации. Искусственный интеллект — ассистент, который берет на себя рутинные обязанности, высвобождая время сотрудников для решения комплексных проблем.

Какими бывают ассистенты?

  1. Сценарные боты — это простые виртуальные ассистенты, функционирующие по заранее заданным сценариям и правилам. Они дешевы в разработке и сопровождении, но перечень закрываемых задач ограничен.
  2. ИИ-агенты — сложные, способные, но и дорогие ассистенты. Каждый из них тратит множество токенов — условной «валюты» для оплаты вычислительной мощности LLM, как внешней, так и кастомной — разработанной и поддерживаемой внутри компании или банка. Токены покупаются за реальные деньги, поэтому затраты на каждый ответ агента можно точно оценить.

При этом сложность ИИ-агентов — медаль о двух сторонах. Их ответы не предопределены заранее. Например, агент по запросу клиента в чате контактного центра может выдать формально корректный, но бесполезный ответ. Клиент не решит свою проблему и либо вернется с тем же запросом позже, либо попросит подключиться оператора-человека. И в обоих случаях такая экономия на автоматизации оборачивается двойными издержками.

Другая проблема — галлюцинации. ИИ может уверенно выдать вымышленную информацию. Для банков это прямой финансовый и правовой риск, если агент укажет неверные процентные ставки, сроки вкладов или кредитов, комиссии за обслуживание.

Наконец, существуют специальные запросы, позволяющие спровоцировать ИИ-агента на неэтичное поведение, ругательства, оскорбления на расовой, этнической и религиозной почве. В других сценариях злоумышленник может получить от интеллектуального ассистента какую-либо закрытую информацию с помощью техник обхода защиты. И то, и другое — прямой удар по репутации банка и, как следствие, по его капитализации.

Как в Альфа-Банке тестируют ИИ-агентов

Изображение: Альфа-Банк

Методика, разработанная в дирекции ботов и ассистентов Альфа-Банка, предполагает три группы оценок:

  • технические;
  • безопасности;
  • успешности выполнения бизнес-задач.

1. Технические метрики определяют доступность агента для пользователя, скорость его работы, производительность и стоимость выполнения каждой задачи. В идеале ИИ-агент откликается на запрос в любое время с минимальными задержками, чтобы клиенту или сотруднику банка не приходилось ждать. При этом время обслуживания — от запроса до решения — не может быть дольше, чем в среднем с этой задачей справляется человек. А цена должна быть ниже.

2. Безопасность проверяется командой валидации. С помощью особых запросов они стараются спровоцировать агента на нарушение общечеловеческих этических принципов или законов.

3. Для оценки эффективности решения бизнес-задач применяют два подхода. Первый — предварительная проверка ИИ-агента до того, как его отправят к реальным клиентам. Для этого используется «Золотой датасет» (Golden Dataset) — стандартизированный набор вопросов и идеальных ответов на них.

Экзаменуют агента люди-асессоры, они же размечают полученные ответы, что в дальнейшем позволяет обучать и использовать для тестирования другие модели искусственного интеллекта (LLM-as-a-Judge). В перспективе один «генеральный» ИИ будет проверять множество «специализированных» ИИ на профпригодность.

«Золотой датасет» помогает определить, верно ли агент понимает вопрос пользователя, способен ли самостоятельно искать дополнительные факты и знания, а также сколько раз уточняет клиентский запрос. Чем меньше дополнительных уточнений, тем выше удовлетворенность клиента и ниже вероятность, что он запросит человека-оператора. На этом же этапе оценивают и процент галлюцинаций.

Если все метрики положительные, то ИИ-агента можно допускать к настоящей работе. Однако на этом его испытания не заканчиваются. Наступает второй этап — непрерывный онлайн-мониторинг качества работы интеллектуального ассистента. Его оценивают по доле успешно решенных задач — тех, по которым отсутствует повторное обращение клиента в последующие семь часов после первого запроса. Дополнительные критерии: смог ли ИИ-ассистент помочь клиенту с первой попытки — в рамках одной сессии, а также какова была длина диалога.

Как выбрать верное решение

Изображение: Альфа-Банк

Рабочий процесс в современных компаниях — это «кентавр-система», состоящая из сотрудников-людей, относительно простых автоматизированных процессов и изощренных ИИ-агентов. Пропорции каждого «сегмента», их роли и функции определяет руководство, поэтому система оценки агентов не должна быть закрытой. Ее цель — помогать менеджерам на разных уровнях принимать правильные управленческие решения.

Вот три возможных кейса:

1. Избегать автоматизации ради автоматизации. Работает ли ИИ-агент на данном участке лучше, хуже или на одном уровне с человеком? Каков в итоге должен быть общий процент автоматизации? Возможно, лучше оставить операторов-людей, а часть функций переложить на простых ботов и вовсе не прибегать к агентам.

2. ИИ-агенты — дорогое удовольствие. Финансовый директор должен наглядно видеть, сколько токенов тратит интеллектуальный ассистент на выполнение отдельной задачи и во сколько это обходится банку в живых деньгах. Оправдано ли использование искусственного интеллекта, если после него к решению вопроса клиента все равно должен подключиться человек, и цена использования агента вырастает в несколько раз?

«Главный вопрос не в том, работает ли ИИ-агент, а в том, окупается ли он. Если после его ответа клиент все равно идет к живому оператору, банк платит дважды — за токены и за время сотрудника. Мы научились считать не стоимость запроса, а стоимость решенной задачи», — объясняет Артем Мартынов, руководитель ИИ-продуктов Альфа-Банка.

3. ИИ-агента можно разработать внутри банка или купить готовую систему. Что предпочесть и какое решение будет наиболее экономически целесообразным? Единая методика, позволяющая сравнивать агенты от разных вендоров с различной архитектурой, помогает сделать объективный выбор.

Что будет дальше

Такая методика уже активно применяется внутри Альфа-Банка. Например, сегодня идет сравнение двух агентов — разработанного самим банком и от внешнего поставщика. Окончательный выбор конкретного решения состоится в апреле.

Этот подход связывает технические метрики с решением бизнес-задач: методика позволяет сравнивать ИИ-агентов с разной архитектурой от множества вендоров, причем как одиночных, так и связанных в мультиагентные системы. Альфа-Банк готов поделиться своими наработками и открыт к диалогу со всеми финансовыми организациями, заинтересованными в создании единого индустриального стандарта для оценки качества ИИ-агентов.