В начале было слово: как развивались технологии машинного перевода

С чего все начиналось
Многие привыкли использовать переводчики так: пишешь фразу в одном окне — получаешь перевод в другом. Этот сценарий до сих пор один из самых популярных. При этом в большинстве случаев уже сложно угадать, где переводил профессиональный переводчик, а где машина. Вид интерфейса при этом почти не менялся, но «под капотом» произошла революция.
Словарный подход. В конце ХХ века алгоритмы обучали языкам на словарях, поэтому перевод выходил буквальным. Машина брала слова из словаря и собирала из них текст, часто ошибаясь в контексте. Например, Cool drink становился «крутым напитком». Такие системы больше напоминали продвинутые словари, чем переводчики.
Алгоритм учится грамматике. Следующим этапом стало обучение системы грамматике. Алгоритмы научились распознавать подлежащее, сказуемое, времена глаголов, что сделало переводы естественнее. Но язык нельзя свести только к правилам: разговорная речь, идиомы и сленг оставались недоступны для понимания технологии. К тому же правила приходилось писать вручную для каждой пары языков,поэтому масштабировать такую систему было сложно и дорого, а в условиях подвижности языковых норм становилось совсем трудной задачей.
Статистический подход. В середине 2000-х появились SMT-системы (statistical machine translation — статистический машинный перевод), которые опирались не на правила, а на частотность словосочетаний. Они анализировали параллельные тексты и подбирали слова, которые чаще встречались вместе. Теперь bank рядом с river становился «берегом», а не «банком». Переводы звучали органичнее, но стоило тексту стать сложнее — наполненным метафорами, эмоциональными оборотами или нестандартными конструкциями — как качество падало.
Нейросетевой скачок
Главной преградой оставалось понимание и удержание системой контекста. Статистические модели механически подбирали вероятные сочетания, но не видели картину целиком. Нейросети изменили ситуацию: они научились улавливать длинные зависимости и скрытые закономерности, что резко подняло качество перевода. Эти технологии легли в основу глубокого обучения (deep learning) — подхода, при котором данные проходят через множество уровней обработки, а система сама выстраивает связи между словами, смыслами и стилистикой.
В 2016 году Google представил свою систему Google Neural Machine Translation (GNMT), и примерно тогда же нейросети начали использовать и в «Яндекс Переводчике». Мы выбрали гибридную архитектуру: статистика и нейросети работали параллельно, а алгоритм CatBoost решал, какой метод выбрать. Такая система подстраивалась под задачу пользователя: для точной передачи устойчивых выражений и технических текстов использовался статистический подход, а для более свободных материалов, разговорной речи — нейросетевой. Со временем статистическая модель ушла на второй план, и сейчас основные направления обслуживаются только нейросетями.
Сейчас мы здесь: время больших языковых моделей
Сегодня на первый план вышли LLM: они позволяют удерживать контекст на масштабе страниц и глав, если пользователь хочет перевести, например, большую статью или даже небольшую книгу. Благодаря этому мы скоро сможем переводить не отдельные куски текстов из цельных произведений, а огромные фрагменты с сохранением повествования. Например, чтобы Мэри не превращалась то в Машу, то в Марию от главы к главе. Мы уже умеем качественно переводить длинные материалы, но полноценный бесшовный перевод такого многотомника, как «Война и мир» — по-прежнему вызов для технологии. Большие языковые модели, которые лежат в основе YandexGPT, пришли в «Яндекс Переводчик» в 2024 году. Благодаря появлению LLM технологии машинного перевода помогают развивать и другие сервисы: например, в нашем браузере появилась функция дубляжа зарубежных блогеров, комиков, актеров и других героев видеоконтента в озвучке, приближенной к оригиналу. Расширились и возможности нейросети «Алисы», которая сейчас не только переводит, но и объясняет логику перевода, подсказывает грамматические правила, раскрывает значение идиом и помогает подобрать стиль под конкретную ситуацию.
При этом LLM значительно сократили объем ручной работы. Нам все еще требуется помощь лингвистов в оценке новых моделей перевода, повышении качества текстов, обучении моделей новым языкам, особенно малочисленных народов России. Однако большинство вопросов, связанных с грамматикой и нюансами из-за подвижности и развития языков, отходят на второй план. Конечно, у этой мощи есть цена: новые модели требуют больших вычислительных ресурсов. Также вызовы сохраняются в области специализированных переводов — юридических, медицинских, технических текстах. Однако их решение — вопрос времени.
Переводчики и чат-боты: конкуренты или партнеры?
С ростом популярности LLM и умных чат-ботов на их основе может показаться, что переводчикам с классическим интерфейсом достается меньше внимания. Однако их сложно назвать конкурирующими решениями. На деле мы скорее говорим о разных интерфейсах, построенных на одной и той же технологической основе: нейросетевых архитектурах. Один и тот же движок может работать и в переводчике, и в голосовом ассистенте, и в боте. Онлайн-переводчики остаются незаменимыми там, где важна фактическая точность и сохранение структуры текста: в договорах, инструкциях, документации. Чат-боты же удобны для творческих задач: перевести письмо в разговорном стиле, адаптировать пост для зарубежной аудитории в социальных сетях, поработать с художественным текстом. Формат диктует сам пользователь и его задачи.
Перевод будущего
Качество перевода — неизменный приоритет компаний, работающих над развитием технологий. Но меняется само понимание метрики качества. Если раньше оценивались отдельные предложения, то теперь в фокусе — плавность и согласованность больших фрагментов: глав, статей, книг. Системы должны не только «знать слова», но и удерживать контекст на протяжении десятков абзацев.
Следующий этап — мультимодальный перевод. Технология должна различать оттенки значений: переводить кнопку «get» в интерфейсе онлайн-библиотеки как «скачать», а в художественном тексте — как «получить»; правильно интерпретировать подписи под изображениями и синхронизировать озвучку с видео.
Чем быстрее идет прогресс, тем сложнее задачи. Переводчик уже уверенно позволяет человеку спросить дорогу у иностранца в незнакомом городе, но помочь поддержать беседу о Тарантино, обсудить последние ролики в TikTok или поспорить о философских идеях — все еще нет. Поэтому ключевая цель разработчиков — сделать перевод не просто точным, а бесшовным, когда технология незаметно работает во время общения. Отсюда интерес к голосовому переводу в реальном времени: уже создаются устройства, мгновенно переводящие речь прямо в наушниках.
Есть и психологический барьер. Несмотря на прогресс, пользователи не всегда доверяют машинам: память о прежних ошибках и риск внезапных сбоев мешают воспринимать переводы как безупречные. Поэтому все больше внимания уделяется UX-инструментам, которые помогают проверить корректность перевода в контексте. В «Яндекс Переводчике» можно увидеть слово в разных значениях — синонимы, примеры из фильмов и книг, формы спряжений. А теперь можно еще и задать уточняющий вопрос и получить разъяснение — благодаря встроенной большой языковой модели.
Переводчик, который читает мысли
Еще недавно бесшовный перевод казался фантастикой, а сегодня он встроен в браузеры, камеры, голосовых помощников и наушники. Переводчики помогают официантам объяснять меню туристам, таксистам — рассказывать про город, сотрудникам аэропортов — помогать путешественникам найти свой рейс.
Будущее — за еще более естественным синхронным переводом, который учитывает не только смысл, но и культурные различия, стиль общения и намерения собеседников.
Мнение редакции может не совпадать с точкой зрения автора
