К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Работа над ошибками: «Ростелеком» зафиксировал рост публикаций о галлюцинациях ИИ

Фото Getty Images
Фото Getty Images
С 2022 по 2025 год ученые обнародовали около 4000 статей, в которых упоминались галлюцинации искусственного интеллекта (ИИ), подсчитал «Ростелеком». Количество публикаций на эту тему выросло на 377% за три года, оценила компания. Интерес научного сообщества к теме вызван потребностью бизнеса максимизировать точность ИИ, поясняют разработчики. По их словам, исключить галлюцинации в генеративных моделях ИИ невозможно, можно лишь удерживать их число в «узком диапазоне»

«Возможны лакуны»

С начала 2022 года и по первую половину 2025-го в международных источниках опубликовано около 4000 научных публикаций на тему галлюцинаций в ИИ, из которых 37 статей российских ученых, сообщили Forbes в «Ростелекоме»: «На 377% выросло число научных публикаций, в которых упоминается это явление». Такая динамика зафиксирована за три года, сообщает компания в своем исследовании «Мониторинг глобальных трендов цифровизации».

Галлюцинациями в ИИ называют порождение моделями вымышленной или недостоверной модели информации, представленной как факт, поясняет «Ростелеком». «Это становится особенно критичным с ростом генеративных моделей (таких, как ChatGPT или DALL-E), поскольку ошибки могут привести к опасным выводам. Например, медицинская модель ИИ способна неверно «поставить диагноз» или автоматизированный новостной бот — придумать ложные факты во время кризиса», — следует из отчета оператора.

Telegram-канал Forbes.Russia
Канал о бизнесе, финансах, экономике и стиле жизни
Подписаться

Галлюцинации ИИ стали одной из главных проблем настройки и обучения генеративных систем (GenAI) в последние годы, говорится в статье из базы знаний чат-бота от «Сбера» GigaChat. Чаще всего с галлюцинациями ИИ сталкиваются пользователи, использующие нейросети для автоматизации бизнес-процессов, генерации текстов, изображений или для анализа данных. Наиболее типичными ошибками нейросетей считаются фактические ошибки, смысловые искажения, избыточная уверенность, ошибки интерпретации пользовательского запроса, нарушение логики.

 

Доля недостоверной информации, генерируемой моделями, не является фиксированной величиной и напрямую зависит от характера запроса, поясняет директор департамента развития машинного обучения и ИИ Билайн Олег Конорев. «В сфере базовой фактологии, где проверенных данных много, уровень достоверности может достигать 90% и выше, однако даже здесь возможны лакуны и галлюцинации на уровне 5–10%. Когда же задача смещается в плоскость синтеза, интерпретации или анализа разрозненных данных, частота ошибок и некорректных умозаключений резко возрастает, приближаясь к 50%, поскольку модель оперирует вероятностными паттернами, а не логическими конструкциями, — указывает Конорев. — В узкоспециализированных областях — таких как редкие научные дисциплины или уникальные технологические процессы — без дообучения на экспертных данных генерация может быть практически полностью недостоверной. Ситуация, когда ошибки достигают 100%, не является редкостью».

«Часть международного дискурса»

Передовые модели ИИ для ответа активно используют информацию из интернета, куда попадают и ненадежные источники, сообщил директор R&D-отдела «Авито» Александр Рыжков. На сложных задачах (например, создание детальных биографий, многоэтапные расчеты, узкоспециальные темы) даже лучшие модели ошибаются в 15–20% случаев, а на простых запросах частота ошибок уже измеряется долями процента, делится наблюдениями он.

 

Если в 2018–2020 годах об ошибках языковых моделей ИИ писали преимущественно исследователи, то в 2022–2025-х этот вопрос стал «частью широкого международного дискурса», констатирует руководитель лаборатории прикладного ИИ СПб ФИЦ РАН Максим Абрамов. После появления больших языковых моделей (LLM) нового поколения — GPT-3/4, PaLM, Llama, Claude, крупных генеративных моделей изображения и видео — объем работ, посвященных интерпретируемости, устойчивости и достоверности выводов, вырос кратно, отмечает Абрамов. По словам CEO и основателя платформы Nodul Саши Данилова, у российских ученых есть работы по анализу галлюцинаций у ruGPT, снижению ошибок через RAG-подходы (Retrieval-Augmented Generation, генерация на основе найденной информации), автоматической оценке фактической достоверности текстов моделей. «Россия движется в русле глобальной повестки», — обращает внимание он.

Одна из причин интереса к теме галлюцинаций ИИ в научной среде — потребность в максимальной точности генеративного ИИ в корпоративных сценариях, полагает ведущий разработчик департамента машинного обучения MWS AI (входит в Erion, ранее «Экосистема МТС») Иван Копылов. Многие подобные исследования проводятся в компаниях или поддерживаются бизнесом, это увеличивает число научных публикаций, отмечает он. Интерес к проблеме растет по мере того, как ИИ выходит из лабораторий в реальные пользовательские продукты — особенно в чувствительных сферах вроде медицины, юриспруденции или образования, уточняет Рыжков.

Внимание ученых к теме галлюцинаций ИИ обусловлено серьезностью самой проблематики, полагает генеральный директор ООО «Аватар машина» Виктор Носко. При использовании LLM и RAG-систем в таких отраслях, как медицина, строительство, право, очень важно давать точные ответы, рассуждает он. «Если эта сложность концептуально будет решена, это приведет к кратному росту внедрений генеративного AI в бизнес», — полагает Носко. Галлюцинации ИИ являются неотъемлемой частью архитектуры генеративных моделей, но за последние два года с приходом размышления, методов оркестрации в мультиагентных системах ReAct, Rewoo, уровень галлюцинаций, по его оценке, упал примерно вдвое. «Точнее сказать сложно, так как этот параметр зависит от многих факторов, — размышляет он. — Например, важным показателем успеха современных моделей является способность делать точные математические расчеты — эта способность существенно спрогрессировала, и теперь в 95% случаев арифметические действия верны. Но сложные задачи (например, не собственные интегралы) GigaChat, например, решает неверно по-прежнему».

 

По мере того, как технологии стали массовыми и охватили больше прикладных задач, стало видно устойчивое расширение исследовательского интереса к GenAI, говорит генеральный директор Альянса в сфере ИИ (объединяет 23 компании, включая, в частности, «Яндекс», «Сбер», Т-Банк, «Ростелеком», МТС, VK). Рост числа научных публикаций о галлюцинациях в ИИ, по мнению Воробьевой, «фиксирует прежде всего динамику внимания, а не ухудшение качества моделей». «На практике за последний год индустрия перешла к устойчивым методам снижения искажений, и RAG стал стандартным подходом: модель отвечает на основе внешних проверяемых источников, что заметно уменьшает долю неточностей, — размышляет Воробьева. — Полностью исключить ошибки невозможно из-за вероятностной природы GenAI, но инженерные методы позволяют удерживать их в узком и управляемом диапазоне».

Использование готовых запросов и сценариев для работы с генеративным ИИ, в которых модель не должна отвечать на вопрос при отсутствии достаточной уверенности, приводит к моментальному снижению ошибок во много раз, отмечает Иван Копылов. «Значительно снижает риск галлюцинаций и поиск по заранее заданным источникам информации. В 2025 году он присутствует уже практически во всех корпоративных продуктах, — рассказал он. — Например, в ИИ-помощниках для юристов или инженеров сценарий поиска можно ограничить внутренними данными компании и доверенными внешними источниками. Таким образом, сценарии использования заранее определены, промпты стандартизированы, что практически исключает галлюцинации в целевых задачах».

«Исключить в принципе невозможно»

Рост упоминаний галлюцинаций ИИ в научных статьях говорит о том, что проблема активно изучается, и именно это помогает снизить вымысел в реальных моделях, подтверждают в «Яндексе». По словам представителя компании, там сосредоточены на минимизации галлюцинаций ИИ за счет граундинга — поиска по собственной базе знаний и обращения к внешним источникам при необходимости. «По нашим замерам, такой подход снижает долю ошибок на 6–8 п.п.», — уточнили в «Яндексе».

Кроме того, в компании улучшают фактические знания модели ИИ на этапе предобучения, контролируя достоверность ответов с помощью экспертов. «У нас также есть специальный бенчмарк галлюцинаций: по нему оценивается, выдумывает ли модель информацию», — отметили в «Яндексе». Согласно собственным данным, на этом бенчмарке доля правильных ответов выросла с 74,8% у прошлой модели YandexGPT 5.1 до 83,8% у новой модели Alice AI LLM.

В то же время в компании уверены: исключить галлюцинации ИИ «в принципе невозможно». Пока модели основаны на вероятностной генерации, всегда будет ненулевой шанс на вымышленные или неточные утверждения, добавили в «Яндексе».

 

В научном сообществе растет понимание фундаментальных ограничений архитектуры трансформеров, на которой работают современные ИИ-модели, говорит Александр Рыжков. «Исследователи говорят о необходимости новых архитектур — систем с внутренними «моделями мира», которые учатся через взаимодействие с реальностью как дети, а не только на текстах, — поясняет он. — Новые подходы призваны наделить модели устойчивой памятью, способностью к рассуждению и планированию».

Представитель «Т-Технологий», разрабатывающих алгоритмы ИИ для Т-Банка, отказался от комментариев. Forbes также направил запрос в «Сбер».

Наименование издания: forbes.ru

Cетевое издание « forbes.ru » зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2025
16+