К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Дообучение — свет: МТС выпустила мультимодальную ИИ-модель и новый бенчмарк

Иллюстрация MWS AI
Иллюстрация MWS AI
MWS AI (входит в МТС Web Services, объединяющую ключевые активы МТС в области IT) вступает в гонку мультимодальных ИИ-моделей. Компания представила свою разработку для одновременной работы с изображениями и текстом Cotype VL, а также первый бенчмарк для оценки качества таких моделей, взаимодействующих с документами на русском языке, — MWS Vision Bench. По мнению экспертов, разработка Cotype VL могла обойтись МТС в несколько сотен миллионов рублей, но цель оправдывает средства: мультимодальность — неизбежный этап развития ИИ как отрасли и обязательный элемент конкурентоспособности для участников рынка

Модель на все руки

Дочерняя для МТС MWS AI выпустила свою первую мультимодальную модель — Cotype VL, способную одновременно анализировать и интерпретировать изображения и текст, рассказал Forbes генеральный директор MWS AI Денис Филиппов в ходе форума «Финополис — 2025». Модель поставляется как в виде отдельного продукта, так и в составе ИИ-помощников MWS AI для широкого круга сценариев, от поиска по документам, содержащим визуальную информацию, до клиентской поддержки пользователей по скриншотам и подготовки отчетов на основе графических данных.

Cotype VL разработана на базе модели Qwen 2.5-VL от Alibaba Cloud с открытым исходным кодом, содержит 32 млрд параметров и распознает изображения с печатным, рукописным и смешанным текстом. Модель также учитывает визуальный контекст при переводе с одного языка на другой, умеет создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию, требующие рассуждений, сравнений и выводов, говорят в MWS AI. «Cotype VL поддерживает русский, английский, китайский и другие языки, что делает ее удобной для компаний с международным документооборотом», — обращают внимание там. Cotype VL можно развернуть в закрытом контуре компании и в случае необходимости дообучить совместно с MWS AI на данных заказчика.

Для обучения Cotype VL команда собрала набор данных на русском языке из различных доменов, включая финансы, промышленность, IT, телеком и здравоохранение. Это более 150 000 документов с визуальными данными, сканы и скриншоты: контракты, письма, договоры, диаграммы, таблицы и схемы с картами и чертежами, где важны структура и расположение элементов. Также в обучающий датасет вошли рукописные конспекты и тетради, документы с рукописным и печатным текстом, вроде справок и открыток, печатные чеки, билеты, грамоты и медицинские анализы. Кроме того, модель была обучена на скриншотах интерфейсов бизнес-приложений, инженерного ПО, приложений экосистемы МТС и игр. MWS AI разработала инструмент для генерации синтетических данных на основе реальных примеров. Все текстовые и визуальные данные, полученные из открытых источников, были очищены от персональной информации.

 

«Наша новая модель умеет работать со схемами, чертежами, техническими иллюстрациями, картами и другими визуальными данными, благодаря чему будет востребована в ИИ-решениях, ориентированных на проектные и инженерные службы, юридические, финансовые и кадровые департаменты, а также на маркетинг, где предполагается работа с разными форматами контента», — рассчитывает Денис Филиппов. Мультимодальные модели могут использоваться практически во всех сферах: сравнивать инженерные чертежи и находить изменения и ошибки между версиями в промышленности, распознавать товары по фото, определять их характеристики и автоматически заполнять карточки в электронной торговле, объяснять задачи по математике или физике, распознавая формулы и графики в учебниках в тетрадях, а также извлекать данные из графиков и таблиц в PDF-отчетах для задач аналитики, перечисляют в компании.

Это не первая мультимодальная модель на российском рынке — первенство здесь принадлежит ученым научно-исследовательского Института искусственного интеллекта AIRI, которые в начале 2024 года разработали OmniFusion — модель ИИ, способную поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам. Свои разработки в этом направлении ведут, к примеру, и такие российские бигтехи, как «Авито» (А-Vision) или «Яндекс» (SpeechGPT).

 

Вопрос о том, во сколько компании обошлись разработка и дообучение Cotype VL, в MWS AI не комментируют. В июне 2025 года Филиппов сообщил, что в прошлом году MWS AI инвестировала в дообучение и внедрение собственных больших языковых моделей семейства Cotype 1 млрд рублей.

Новый ориентир

Кроме ИИ-модели, в MWS AI также разработали собственный открытый бенчмарк для мультимодальных моделей, способных одновременно анализировать изображения и текст — MWS Vision Bench. Существующие международные аналоги не охватывают работу таких моделей в продуктовых задачах, где необходимо взаимодействовать с документами на русском языке, пояснили в компании: «Бенчмарки, вроде OCRBench, AI2D или MMMU, охватывают только английский и китайский языки, это делало невозможной объективную оценку таких моделей (какая лучше справится с анализом документов, извлечением данных или автоматизацией обращений) при решении продуктовых задач в российских компаниях».

MWS Vision Bench проверяет, насколько эффективно модели умеют считывать текст с изображений, понимать структуру документа, находить необходимую информацию, распознавать расположение элементов и отвечать на сложные вопросы по содержимому. В его состав вошли 800 изображений и 2580 заданий, отражающих реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Исходный набор данных случайным образом разделен на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1278 заданий), первая опубликована в открытом доступе. Открытый исходный код бенчмарка выложен на GitHub, а датасет доступен на платформе Hugging Face.

 

Выручка MWS AI, создающей ИИ-продукты, растет. В 2024 году она составила 4,27 млрд рублей, а в первом полугодии 2025-го компания показала рост на 86% — с 984 млн до 1,83 млрд рублей, рассказывал ранее Forbes Денис Филиппов. По его словам, к 2028 году MWS AI планирует занять около 10% российского рынка искусственного интеллекта и достичь внешней выручки (то есть не считая проектов внутри МТС) на сумму 11 млрд рублей. Объем рынка AI-программного обеспечения и IT-сервисов в 2025 году составит 50 млрд рублей, прогнозируют в компании, и по итогам 2029 года более чем утроится — до 155 млрд рублей.

Больше решений, хороших и разных

По общему мнению аналитиков, развитие генеративного ИИ неразрывно связано с ростом качества мультимодальных сценариев. Развитие способности моделей обрабатывать и интегрировать данные из различных источников или «модальностей», таких как текст, изображения, аудио и видео, приближает нас к человеческому способу обработки данных, что, например, повышает предсказуемость маневров автономного транспорта и ускоряет развитие технологии, рассказывал ранее Forbes СЕО бизнес-подразделения «Поиск и рекламных технологий» «Яндекса» Дмитрий Масюк.

Выход Cotype VL и анонс MWS Vision Bench важны для рынка по двум причинам, рассуждает СЕО Университета «Зерокодер» Кирилл Пшинник. Во-первых, это сигнал: мультимодальные сценарии в бизнесе переходят из пилотов в массовую интеграцию, говорит он: «Во-вторых, появление профильного русскоязычного бенчмарка закрывает методологический разрыв: наконец можно объективно сравнивать VLM (Visual Language Models, визуально-языковые модели) на реальных документах, а не на английских наборах общего назначения».

Большинство существующих бенчмарков для мультимодальных моделей англоязычные, и российские компании вынуждены создавать собственные замеры для корректной оценки работы с русским языком, замечает управляющий директор по ИИ «Авито» Андрей Рыбинцев: «Дело в фундаментальной языковой специфике: кириллица, морфология, синтаксис, обработка смешанного текста на изображениях требуют отдельного тестирования».

Чем больше сильных решений, тем лучше всем участникам рынка: растет общий уровень технологий, появляется здоровая конкуренция, снижаются риски монополизации, полагает Рыбинцев. База в виде опенсорсной Qwen2.5-VL-32B логична, продолжает Пшинник: быстрее вывод в продукцию, проще развертывание внутри периметра безопасности и дообучение. «Конкуренция среди локальных игроков высокая: «Яндекс» уже применяет VLM в «Поиске» и «Алисе», «Сбер» прокачивает GigaChat, «Авито» презентовал A-Vision, — указывает он. — Но рынок велик: выигрывают те, кто доводит не метрики, а SLA (Service Level Agreement, соглашение об уровне сервиса между компанией и клиентом) в прикладных процессах — от поддержки по скриншотам до извлечения данных из сканов и рукописных форм».

 

Выбор в пользу опенсорса оправдан с технологической и экономической точек зрения, поясняют эксперты. Открытые модели — качественная база, но их локализация на русский часто недостаточна, говорит Андрей Рыбинцев. По его мнению, использование opensource дает контроль над решениями, независимость от внешних поставщиков и возможность безопасно развернуть модель в закрытом контуре компании. «Разработка VLM на базе открытых моделей может обойтись в несколько сотен миллионов рублей с учетом расходов на оборудование, команду, эксперименты и подготовку данных, — оценивает Рыбинцев. — Создание модели с нуля требует значительно больше времени и инвестиций, при этом не гарантирует превосходства в качестве. Плюс открытые модели позволяют дообучать решение на собственных данных и адаптировать под специфику бизнеса — это ключевое преимущество для корпоративных клиентов, которым нужна кастомизация под их процессы».

Хоть МТС фактически и догоняет других игроков с «мультимодалками», у компании другой подход, говорит эксперт по машинному обучению и ИИ Максим Першин. Условные «Сбер» и «Яндекс», по его словам, фокусируются на масштабные корпоративные имплементации стандартных LLM — Gigachat с упором на ризонинг (в контексте ИИ — способность машин делать выводы и принимать решения на основе имеющихся данных), LLM «Яндекса» с внедрением ризонинга в поиск.

«У МТС немного другой путь — они создают локальные решения под нужды бизнеса, — продолжает Першин. — Какая стратегия на российском рынке правильная, пока никто не знает. МТС пошел вторым путем: они последние два года выстраивают собственную ИИ-вертикаль (MWS Cloud, MWS GPT как агрегатор LLM/VLM; инвестиции и перенос обучения и инференса, то есть применения уже обученных алгоритмов для обработки новых данных и выдачи результатов, в облако). Их бизнес-модель не требует какого-то прорывного решения — условного ChatGPT для русского, им нужно просто создавать инфраструктуру для закрытия проблем своих клиентов. На мой взгляд, они делают все правильно, так как условные модели «Сбера» и «Яндекса» в экстремуме вряд ли победят западных конкурентов даже на русских тестах».

Наименование издания: forbes.ru

Cетевое издание « forbes.ru » зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2025
16+