К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Заглянули под капот: ученые выяснили, как ИИ принимает решения на разных этапах

Фото Getty Images
Фото Getty Images
Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research разработали новый метод, который помогает понять, почему ИИ-модель приняла то или иное решение в процессе вычисления, и при необходимости повлиять на нее, узнал Forbes. По мнению экспертов, этот метод, названный SAE Match, может помочь преодолеть эффект «черного ящика» для бизнеса и потенциально подтолкнуть вперед весь рынок, поскольку компании начнут больше доверять технологии

В лаборатории исследований искусственного интеллекта T-Bank AI Research разработали новый научный метод под названием SAE Match, который позволяет заглянуть внутрь искусственного интеллекта, выяснить, в какой момент ИИ начинает давать неправильные или нежелательные ответы, и вовремя скорректировать их, рассказали Forbes в компании. «Это прорывной шаг на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы, такие как медицина, финансы и безопасность», — утверждают в Т-банке.

Telegram-канал Forbes.Russia
Канал о бизнесе, финансах, экономике и стиле жизни
Подписаться

В чем суть открытия

Метод SAE Match относится к области интерпретируемости ИИ, главная цель которой — сделать работу ИИ более прозрачной и понятной для человека, чтобы можно было отслеживать, как модель обрабатывает информацию, почему она принимает те или иные решения, и впоследствии повысить точность ответов.

Современные языковые модели состоят из нескольких слоев, каждый из которых использует результат предыдущего: так модель старается улучшить свои предсказания слой за слоем, поясняют в Т-банке: «Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Ранее не существовало метода, который позволял бы проследить, как концепции изменяются от слоя к слою. SAE Match стал первым инструментом, который не просто фиксирует концепции на отдельных слоях, а анализирует их эволюцию в процессе вычислений». Эксперименты на ряде моделей показали, что он помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети, указывают в компании: «Это делает поведение ИИ более предсказуемым и понятным, в том числе дает возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что дорого и требует больших вычислительных ресурсов».

 

Кроме того, как заверяют авторы метода (ими указаны Никита Балаганский, Ян Максимов и Даниил Гаврилов), SAE Match не требует дополнительных данных или дообучения модели, что делает его гораздо более доступным, чем другие методы контроля работы ИИ: «Это особенно важно для небольших команд, которые не могут позволить себе сбор и обработку больших наборов данных». Также метод, по их словам, позволяет отслеживать, когда модель начинает предсказывать нежелательные или потенциально опасные фразы, и предотвращать их появление, это поможет создавать более безопасные и этичные решения на базе ИИ.

«Представьте умного голосового помощника, который рекомендует фильмы. И вдруг он начинает выдавать недостоверную или даже грубую информацию, — говорит руководитель научной группы LLM Foundations в T-Bank AI Research Никита Балаганский. — Сейчас изменить его поведение — сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. Наши исследования в области интерпретируемости ИИ направлены на то, чтобы такие сбои можно было заметить и быстро исправить без дорогостоящего переобучения модели».

 

Результаты исследования будут представлены на одной из главных международных конференций в области машинного обучения и искусственного интеллекта уровня А* ICRL, которая пройдет в Сингапуре 24-28 апреля 2025 года.

Почему это важно

Появление таких решений подталкивает рынок к новому этапу зрелости, указывают эксперты. Прозрачность и интерпретируемость моделей становятся не академической задачей, а реальным конкурентным преимуществом, полагает CEO AI-лаборатории NDT (Neuraldeep.tech, входит в группу компаний red_mad_robot) Валерий Ковальский. «Если бизнесу проще понять, как работает ИИ, — он быстрее принимает решение о его внедрении. Это повышает общую планку требований к разработчикам, особенно в условиях, когда open source сообщество уже предлагает сопоставимые инструменты. Вопрос будет не только в научной новизне, но и в том, кто быстрее и удобнее адаптирует технологию под реальные задачи», — считает он.

Исследователи предложили оригинальный способ, как можно сделать работу современных больших языковых моделей (Large Language Model, LLM) более прозрачной, чтобы их было легче анализировать, понимать и корректировать, размышляет руководитель разработки больших языковых моделей 

Avito  Анастасия Рысьмятова. Такие решения, по ее мнению, могут в будущем дать исследователям и разработчикам мощный инструмент для анализа внутренней логики нейросетей и повышения их прозрачности, помогая создавать более предсказуемые и надежные системы ИИ. «Развитие этого подхода способно сократить затраты на создание моделей, снизить риски возникновения ошибок и галлюцинаций, а значит, повысить доверие к результатам работы нейросетей», — говорит она.

 

В банковском секторе, промышленности и ряде других областей, где решения влияют на миллиардные активы и безопасность производства, «черный ящик» нейросетей неприемлем, рассуждают в MTS AI. «Компаниям требуется полная объяснимость каждого этапа работы модели: от обработки входных данных до формирования результата. Например, если ИИ рекомендует отказать в кредите или остановить конвейер, специалисты должны понимать, на основании каких параметров принято решение. Это не только снижает риски ошибок, но и позволяет оперативно корректировать логику системы. Чем прозрачнее работа алгоритма, тем выше точность и доверие к его выводам», — объясняют в компании важность SAE Match.

Объем российского рынка LLM‑продуктов для бизнеса по итогам 2024 года составит 35 млрд рублей, подсчитывали ранее в Центре искусственного интеллекта МТС (MTS AI). До 2028 года, когда он увеличится до более чем 85 млрд рублей, этот показатель будет расти в среднем на 25% в год, прогнозировали аналитики центра.

Задача обеспечения безопасности и контроля ИИ очень важна сегодня, некоторые компании в гонке за новыми моделями и показателями в бенчмарках забывают про этот аспект, замечает CTO направления genAI в Just AI Антон Сипачев. «А между тем ИИ внедряется повсеместно, и агентские подходы, в которых ИИ может обращаться к различным сервисам и системам, делает его далеко не просто безобидным текстовым чатом, — продолжает он. — Есть разные подходы к решению этой задачи — предобучение на фильтрованных данных или цензурирование сгенерированных токенов». Предложенный метод позволит как глубже провести анализ проблемных мест, так и улучшить уже существующие методы, считает Сипачев.

Одна из проблем в области интерпретируемого ИИ — так называемая полисемантичность и наложение признаков, поясняет директор лаборатории FusionBrain Института AIRI Андрей Кузнецов. Это значит, что один и тот же участок нейронов в модели может отвечать за несколько разных концепций сразу, например за понятия «мама» и «женщина», продолжает он, и отследить, как именно эти признаки меняются от слоя к слою внутри модели, довольно сложно. «Коллеги предложили авторский способ сопоставления таких признаков между слоями. Это может быть очень полезным в ситуациях, когда доступ к обучающим данным ограничен или невозможен, — рассуждает Кузнецов. — Основная цель — понять, что происходит с концептами внутри модели, чтобы установить, почему модель отвечает на вопросы определенным образом. Помимо этого, в работе предложен механизм для сокращения размера моделей без потери качества ответов».

Хотя метод решает довольно техническую задачу, направление исследования «крайне актуально» в современной исследовательской повестке, потому что понимание внутренних механизмов работы моделей важно как для безопасности, так и для практического применения, обращает внимание Кузнецов. «Например, чтобы знать, что модель не выдает токсичные или ложные ответы из-за внутренних свойств своей архитектуры. Более того, над тем, как сделать модели более интерпретируемыми, сейчас работает все наше научное сообщество в сфере ИИ, а наука — это коллективный и кумулятивный процесс, в котором масштабные сдвиги происходят в процессе объединения узкоспециализированных результатов», — заключает он.

 

Наименование издания: forbes.ru

Cетевое издание «forbes.ru» зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2025
16+