К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Я слышу голоса: «Т-Технологии» опубликовали ИИ-модель, умеющую троллить мошенников

Фото Getty Images
Фото Getty Images
ИИ-центр группы «Т-Технологии», владеющей 99,97% акций Т-Банка, выложил в открытый доступ модель автоматического распознавания речи T-one. Отличие этой модели от похожих open source разработок «Сбера» и Open AI в том, что модель «Т-Технологий» распознает речь в потоке, а также обгоняет конкурентов по качеству, утверждают в компании

ИИ навострил уши

О выпуске в открытый доступ модели T-one Forbes сообщили представители «Т-Технологий» в ходе Второй конференции по машинному обучению (ML) Turbo ML Conf, прошедшей в Москве 19 июля в кластере «Ломоносов» ИНТЦ МГУ «Воробьевы горы». Модель была опубликована на платформах Hugging Face и GitHub.

По данным «Т-Технологий», T-one состоит из 70 млн параметров, то есть сравнительно небольшого размера. Для сравнения: ASR-модель компании SberDevices GigaAM состоит из 240 млн параметров, в ASR-модели Whisper large-v3 от OpenAI — 1,55 млрд параметров. По оценке «Т-Технологий», Т-one обгоняет большие открытые ASR-модели, GigaAM v2 и Whisper Large-v3, по качеству распознавания на русском в телефонии. 

«Такие модели могут быть интересны и бизнесу, и научному сообществу: размер T-one позволяет запустить модель с ноутбука, и даже с учетом обслуживания, аренды или эксплуатации на своих серверах она обойдется в десятки раз дешевле готовых решений от облачных провайдеров. Например, это могут быть компании, разрабатывающие голосовых роботов и ассистентов, занимающиеся автоматизацией кол-центров. Они могут взять за основу эту модель и адаптировать ее под свои решения. Это позволит сократить ресурсы на разработку с нуля, — рассказал представитель «Т-Технологий». — Для нас это важно, потому что это дает возможность провалидировать наши подходы и улучшить работу модели».

 

«Расходы на разработку модели составили не более 10 млн рублей», — сообщили в компании. В эту сумму входит стоимость аппаратного обеспечения и фонд оплаты труда сотрудников, участвовавших в проекте. Аналогичная модель уже внедрена в ряде внутренних продуктов Т-Банка, включая службу поддержки, мобильного секретаря в «Т-Мобайле» и инструменты защиты от спам-звонков.

Дальше без Олега

Т-Банк (ранее Тинькофф Банк) развивает речевые технологии с 2016 года. Первым решением был голосовой ассистент «Олег», запущенный в 2019 году и названный так по имени основателя банка Олега Тинькова (признан Минюстом иноагентом). В июне 2024 года «ТКС Холдинг» (прежнее название «Т-Технологий») изменил название Тинькофф Банка на Т-Банк. Ранее в том же году голосовой помощник «Олег» в приложении банка был переименован в секретаря. От использования бренда «Олег» для голосового помощника, по данным Forbes, банк решил отказаться. На смену «Олегу» пришел мобильный секретарь, напомнил представитель «Т-Технологий». Секретарь принимает звонки и делает расшифровку разговора, а также с юмором отвечает спамерам и мошенникам, звонки от которых превышают половину от незнакомых номеров. «В своем троллинге секретарь в том числе ориентируется на контекст», — сообщили в банке. Всего в компании сейчас развивают шесть ИИ-ассистентов, которые закрывают разные пользовательские задачи, от покупки билетов до консультаций по ценным бумагам, добавил представитель «Т-Технологий». Компания также предлагает речевые технологии внешним заказчикам в рамках своей платформы VoiceKit.

 

Распознавание речи относится к технологиям обработки естественного языка (NLP), напоминает директор департамента контактных центров и роботизированных систем Naumen Сергей Попов. Совокупный рынок NLP-решений в России в 2024 году составил 8 млрд рублей, что превысило показатель 2023 года на 34%. Сегодня автоматическое распознавание речи — это уже не точечная технология, а важный компонент цифровой инфраструктуры эффективного обслуживания клиентов, отмечает он.

«Рынок автоматического распознавания и синтеза речи отдельно также демонстрирует положительную динамику. В 2024 году он достиг объема 680 млн рублей, продемонстрировав рост на 7%, — сообщил Попов. — В структуре рынка диалогового ИИ сегмент занимает 11%, при этом 49% приходится на голосовых роботов — ключевых потребителей технологий ASR и TTS (Text-To-Speech, перевод текста в речь)». Этот рынок в целом перешел из фазы экспериментов в фазу зрелого и масштабного внедрения, отмечает Сергей Попов. По его словам, основные драйверы этих процессов — снижение операционных издержек, ускорение обработки обращений и компенсирование кадрового дефицита в сфере клиентского сервиса.

День открытых дверей

На рынке уже есть ряд решений для распознавания русского языка, говорит технический директор и сооснователь компании CraftTalk Михаил Сбитников. По его словам, коммерческие решения предлагают «Яндекс», Т-Банк, BSS и другие. К примерам open source решений он относит Whisper. «Можно только приветствовать появление новых, более оптимизированных открытых моделей, это стимулирует использование и развитие смежных технологий», — считает Сбитников.

 

«Здорово, что появляются в open source модели распознавания речи на русском языке — это очень позитивный тренд для всей индустрии. Это дает возможность не только крупным компаниям, но и малому бизнесу, научным учреждениям и энтузиастам создавать инновационные продукты, — согласен старший директор по искусственному интеллекту «Авито» Андрей Рыбинцев. — Мы в «Авито» как компании с собственной моделью, обученной на десятках тысяч часов данных, хорошо понимаем, какие ресурсы, экспертиза и инвестиции стоят за такими разработками».

Речевые технологии уже находят применение в самых разных сценариях, отмечает Рыбинцев. «В контактных центрах они помогают быстрее обрабатывать обращения клиентов, а в модерации контента ускоряют выявление потенциальных нарушений. В «Авито» мы используем речевые модели для защиты пользователей от спама, определения целевых обращений для профессиональных продавцов и маршрутизации запросов через голосовую поддержку», — говорит он.

Российские ИИ-модели по ряду задач на русском языке уже превосходят по качеству зарубежные аналоги, подтверждают в MWS AI (входит в МТС Web Services). «Появление новых моделей, безусловно, будет способствовать дальнейшему развитию рынка, в данном случае речевой аналитики. Открытый доступ к таким моделям позволяет российским пользователям и компаниям тестировать базовые сценарии применения генеративного ИИ без дополнительных инвестиций, работая в закрытом контуре и обеспечивая полную конфиденциальность данных», — поясняют в MWS AI.

MWS AI разрабатывает собственные технологии в сфере речевой аналитики. «На сегодняшний момент в департаменте клиентского сервиса МТС около 60% запросов обрабатывает нейросеть, а операторы-люди решают более сложные задачи», — указывают в компании. 

Возможность распознавания речи в реальном времени — важная особенность модели, отмечают в MWS AI. «Сегодня многие компании используют речевую аналитику для оценки качества обслуживания клиентов, но это почти всегда анализ постфактум. Сначала записывают разговоры, затем их анализируют, выявляют ошибки и дают обратную связь — но клиент уже ушел, получив услугу того или иного уровня, — рассуждают в MWS AI. — Мы видим будущее в копайлотах для продавцов, работающих в реальном времени: они подсказывают, как отвечать на вопросы, помогают быстрее находить информацию и мгновенно корректируют процесс обслуживания». Среди других перспективных направлений в компании отметили распознавание эмоций, определение демографических характеристик (пола и возраста), а также выявление ботов и аудиодипфейков для защиты пользователей.

 

Опенсорс — драйвер развития современных технологий, и ASR не исключение, размышляет руководитель направления автоматического распознавания речи «Яндекса» Евгений Ганкович. По его словам, все больше компаний-разработчиков открывают доступ к своим решениям, ускоряя не только проведение научных исследований и создание новых разработок в области, но и внедрение ИИ в бизнес-процессы.

«Сегодня мы видим разные примеры ИИ-опенсорса — от больших и малых моделей до открытых методологий. Например, научная статья исследователей голосовых технологий «Яндекса», описывающая принципы работы устойчивой к шуму нейросети, была принята на международную конференцию по речевым технологиям Interspeech 2025 наравне со статьями Microsoft, Google DeepMind, Google AR и т.д. Фактически это подтверждение значимости исследования среди мирового научного сообщества», — обращает внимание Ганкович. Методологию, описанную в статье, «Яндекс» использует и в своих продуктах, отметил он. «Внутри компании большое количество моделей собственной разработки с SOTA-качеством на общем домене по нашим бенчмаркам, — сообщил Евгений Ганкович. — Основные прорывы в ASR-технологиях «Яндекса» связаны с «Алисой». В частности, благодаря развитию ASR-технологий из голосового помощника «Алиса» превратилась в полноценного AI-ассистента, способного решать повседневные задачи пользователей любой сложности, заключил он.

Представитель VK отказался от комментариев, в «Сбере» не ответили на запрос.

Наименование издания: forbes.ru

Cетевое издание « forbes.ru » зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2025
16+