Как небольшой польский стартап стал «голосом ИИ» за миллиарды долларов

Дубляж фильмов в Польше ужасен. Один-единственный актер озвучивает все реплики монотонным голосом. Никакого актерского состава. Никаких различий между персонажами. Молодая аудитория это ненавидит. «Спросите любого поляка — вам скажут, что это кошмар», — говорит Матеуш (Мати) Станишевски, сооснователь ElevenLabs, компании, которая занимается ИИ-голосами. «Полагаю, это отголоски эпохи коммунизма, дешевый способ делать контент», — думает Станишевски.
Работая в Palantir, Станишевски объединился с другом школьных лет, инженером Google Петром Дабковски, чтобы экспериментировать с ИИ. Они поняли, что один из их проектов, а именно многообещающий ИИ-коуч для публичных выступлений, может решить проблему Польши, когда Леонардо ДиКаприо или Скарлетт Йоханссон говорят голосом «звезды» озвучки Мацея Гудовского.
Они собрали свои сбережения и к маю 2022 года уволились, чтобы полностью посвятить себя ElevenLabs. С самого старта их ИИ-переводчик текста в голос был на порядок лучше роботизированных голосов Siri от Apple и Alexa от Amazon. Голоса ElevenLabs умели звучать радостно, возбужденно, даже смеяться.
В январе 2023 года ElevenLabs запустила свою первую модель. Она могла взять любой текст и с помощью ИИ озвучить его любым голосом — включая клон вашего собственного (или, что тревожнее, чужого). Спрос возник мгновенно. Авторы получили возможность буквально за минуты создавать аудиокниги (профессиональные тарифы сейчас стартуют примерно от $99 в месяц за повышенное качество и большее время). Ютуберы начали использовать ElevenLabs, чтобы переводить свои видео на другие языки (их модели сегодня говорят уже на 29 языках). Молодые предприниматели заключили контракты с приложениями для изучения языков и сеансов медитации, затем в игру вступили медиахолдинги вроде HarperCollins и немецкой Bertelsmann. «Было очевидно, что это лучшая модель, и все просто брали ее», — говорит инвестор Дженнифер Ли из Andreessen Horowitz, которая стала одним из крупных инвесторов в мае 2023 года, общая сумма вложений составила тогда $19 млн. Спустя год основатели попали в список Forbes USA «30 до 30 Европа».
Другие же нашли более сомнительные применения стартапу: создавались ИИ‑двойники голосов публичных фигур — от президента Дональда Трампа, грубо комментирующего игровые баталии, до актрисы Эммы Уотсон, «читающей» Mein Kampf (книга внесена в список экстремистских материалов и запрещена в России), и подкастера Джо Рогана, «рекламирующего» мошеннические схемы, все они стремительно разлетались в Сети. Дальше — больше, мошенники начали использовать дипфейки в виде голосовых клонов для имитации звонков от близких и кражи миллионов.
Это не остановило венчурных инвесторов. Всего ElevenLabs привлекла более $300 млн и в октябре взлетела до оценки $6,6 млрд, став одним из самых дорогих стартапов Европы. 30-летний Матеуш Станишевски выступает в роли CEO (классических должностей в компании нет), а глава исследований — Петр Дабковски, ему тоже 30. По оценкам Forbes USA, каждый из них теперь обладает состоянием немногим более $1 млрд.
Около половины из $193 млн выручки за последние 12 месяцев ElevenLabs получает от корпоративных клиентов вроде Cisco, Twilio и швейцарского рекрутингового агентства Adecco, использующих эти технологии для обработки звонков в службы поддержки или проведения первичных интервью с соискателями. Epic Games задействует ее для озвучки персонажей в Fortnite, включая диалоги с персонажем «Звездных войн» Дартом Вейдером (с согласия наследников Джеймса Эрла Джонса). Остальная часть выручки по‑прежнему поступает от ютуберов, подкастеров и авторов, которые стали первыми пользователями. «Когда вы с ними разговариваете, поражает, насколько они хороши», — отмечает аналитик Gartner Том Кошоу. В отличие от большинства ИИ‑компаний, ElevenLabs еще и прибыльна — по оценкам Forbes USA, ее чистая прибыль за последние 12 месяцев составила $116 млн (маржа — 60%).
Теперь компании приходится конкурировать с такими гигантами, как Google, Microsoft, Amazon и OpenAI, за право стать де‑факто «голосом ИИ». Этот рынок не новый: технологические компании начали создавать продукты для распознавания, транскрибации и генерации речи еще около десяти лет назад. Для Microsoft это лишь часть портфеля, но Сатья Наделла был готов выложить $20 млрд за сервис транскрибации речи Nuance с биржи Nasdaq в марте 2022 года. OpenAI представила собственный голосовой инструмент, позволяющий вести живые беседы через ChatGPT, в октябре 2024 года.
Но коллектив ElevenLabs, который состоит из 300 сотрудников, не стремится их догнать. Качество моделей столь высоко, что компания может позволить себе брать в три раза больше, чем американские конкуренты. Ее библиотека из 10 000 голосов, пугающе близких к человеческим, — крупнейшая на рынке и уже включает голоса таких звезд, как Майкл Кейн и Мэттью Макконахи. Надежность тоже выше. Стартап по подготовке датасетов Labelbox протестировал шесть ведущих голосовых моделей с помощью теста на чтение и обнаружил, что ElevenLabs допускает вдвое меньше ошибок, чем ближайший конкурент, OpenAI. «Мы одна из немногих компаний, которые опережают OpenAI — не только по речи, но и по переводу текста в голос и музыке. Это мощно», — говорит Станишевски. Рецепт ElevenLabs прост: небольшая команда занималась машинным обучением и была одержима решением лишь одной узконаправленной задачи в условиях небольшого бюджета (основатели заплатили $100 000 за тестовый запуск) — все это стимулировало прорыв. «Избыток вычислительных мощностей может быть проклятием: ты не думаешь, как решить задачу по-умному», — добавляет Дабковски.
Однако иск от двух дикторов аудиокниг намекает и на другую составляющую успеха. Карисса Вакер и Марк Бойетт утверждают, что ElevenLabs использовала тысячи аудиокниг, защищенных авторским правом, для обучения моделей. По их словам, настолько много их работ было использовано, что клоны их голосов оказались среди стандартных опций ElevenLabs. Компания отрицала нарушения, и дело было урегулировано в досудебном порядке в ноябре. Вакер и Бойетт не ответили на запрос о комментарии, ElevenLabs также больше не комментировали ситуацию.
Компания постепенно становится серьезнее. После того как созданный ElevenLabs голосовой клон Джо Байдена использовали в робозвонках с призывом не голосовать на предвыборном этапе в 2024 году, в компании наконец сформировали список «запрещенных» голосов (в основном политиков и знаменитостей). Сейчас в ElevenLabs работают семь штатных модераторов (плюс, разумеется, ИИ), которые отслеживают контент на предмет злоупотреблений. Новые клоны голосов обязаны проходить проверку, а компания предлагает бесплатный детектор дипфейков.
Станишевски и Дабковски строят планы и за пределами голосовых технологий. И создателям, и медиакомпаниям с ограниченными бюджетами требовалась бесплатная фоновая музыка — в ответ ElevenLabs запустила генератор музыки на базе ИИ в августе. Нет времени снимать видео? В следующем году компания предложит ИИ‑аватары для искусственных роликов, похожих на те, что создает Sora. Самая амбициозная ставка — перенести фокус внимания на создание единого хаба, из которого клиенты смогут управлять всеми своими ИИ‑инструментами. «Мы строим платформу, которая позволяет создавать голосовых агентов и использовать их без проблем», — говорит Станишевски.
Разумеется, это ведет ElevenLabs к столкновению с целым роем стартапов с аналогичными амбициями. Компании помогает то, что она прибыльна с первых лет, однако и конкуренты имеют хорошую финансовую подушку, а у техгигантов практически безграничные ресурсы. При этом останавливаться нельзя: голосовые модели вскоре станут товаром общего пользования. Когда остальные подтянутся по качеству, непостоянные клиенты, уже недовольные расценками ElevenLabs, легко отвернутся от компании.
В процессе расширения в сторону более ресурсозатратных музыки и видео ElevenLabs нужно увеличивать собственные мощности, чтобы оставаться в игре. Компания уже вложила $50 млн в проект дата‑центра в Орегоне. «Если мы хотим построить компанию поколения в сфере ИИ, нужно масштабироваться, мы этим и занимаемся», — говорит Станишевски.
Тем временем в Польше стареющее поколение актеров озвучания все еще работает — по крайней мере пока. Дабковски не забыл изначальное обещание ElevenLabs и уверяет, что следующая модель сможет перевести и озвучить целый фильм за один дубль. «Мы никогда не отказываемся от своих миссий», — говорит он.
Перевод Глеба Анфиногенова
