Дипфейки и нейросети: как могут быть использованы голосовые данные из Clubhouse

Фото Arnulf Hettrich / imago images
Фото Arnulf Hettrich / imago images
Популярность голосовых сообщений набирает обороты — о запуске аналога Clubhouse задумался Facebook, а Telegram в последнем обновлении мессенджера добавил возможность запускать аудиочаты. Гендиректор группы компаний ЦРТ Дмитрий Дырмовский в колонке для Forbes рассуждает, что можно сделать с голосовыми данными из соцсетей и кому они нужны

Каждый день пользователи создают огромные массивы голосовых данных: они пересылают голосовые сообщения в разных мессенджерах, общаются в Zoom, который позволяет записывать разговоры. Есть мессенджер Discord, который геймеры во всем мире используют для голосовых чатов. 

Но именно популярность Clubhouse заставила задуматься, как можно использовать большой массив аудиоданных с подобных платформ. Чтобы голосовой формат развивался, на подобные платформы должен прийти крупный бизнес. Компаниям это интересно — и в качестве нового канала коммуникации с пользователями, и в качестве нового канала рекламы и маркетинга. Но если тот же Clubhouse захочет привлечь на свою платформу компании, как это сделали в свое время «традиционные» соцсети (Facebook, Instagram, Twitter, «ВКонтакте»), ему придется сделать несколько важных шагов в области обработки голосовых данных и безопасности.

Фейковые знаменитости, утечка данных и продажа инвайтов: чем опасна соцсеть Clubhouse

Защита от мошенников 

Для того чтобы крупный бизнес пришел на новую платформу, нужно обеспечить ее безопасность. Сейчас Clubhouse менее безопасен, чем другие соцсети. 

Было бы логично ввести верификацию аккаунтов, когда пользователь подтверждает свой ID с помощью фотографии, и голосовую биометрию, когда пользователь регистрирует свой голосовой образец. Голосовая биометрия позволит использовать технологии голосового антиспуфинга (от англ. spoof. — мистификация). Эту технологию применяют, например, банки. Если оператор разговаривает с клиентом, который предоставлял голосовую биометрию, система во время разговора мониторит голос и сразу же оповещает оператора, если «видит», что голос чужой (это могут быть такие малозаметные для человеческого уха параметры, как тембр, скорость речи, паузы и т. д.). Крупный бизнес считает, что антиспуфинг — это необходимость, и ждет, что такие технологии должны быть интегрированы на любой голосовой платформе. Без этого компании вряд ли придут в тот же Clubhouse — по крайней мере так же массово, как сделали это в других соцсетях. 

Правда, прямо сейчас возможности мошенничества в том же Clubhouse ограничены. Может случиться утечка данных с серверов, но априори любая облачная платформа несет ответственность за данные пользователей, поэтому такие утечки случаются редко. В этом смысле Clubhouse не отличается от любой другой соцсети. 

С другой стороны, даже дилетант может легко записать диалог в любой комнате Clubhouse. Для этого даже не нужно специальных технологий и аппаратуры: можно воспользоваться диктофоном или подключить гарнитуру к смартфону, подключиться к звуковой карте компьютера и напрямую записывать происходящее. Но создать настоящий дипфейк (ложный голос человека) так не получится: для качественного клона голоса нужно много часов записи разговора одного и того же человека. При этом уставший голос уже не подходит для синтеза речи. То есть нужно будет найти много часов «хорошего» голоса конкретной персоны, а это трудная задача.

«Прошла эйфория»: как всего за месяц угас ажиотаж вокруг Clubhouse и что ждет соцсеть в будущем

Обучение нейросетей

IT-компании, которые занимаются голосовыми технологиями, могут использовать большой массив аудиоданных для обучения нейронных сетей, чтобы улучшить технологии распознавания, диаризацию речи (когда система понимает, кому какие слова принадлежат); на этих данных также можно прорабатывать синтез речи. 

Clubhouse здесь выгодно отличается от контакт-центров крупных компаний из банковской сферы, телекома и ретейла. В контакт-центрах 99% разговоров клиентов с операторами происходят вокруг продуктов компании, то есть разговоры однообразны. Система распознавания речи, обученная на таких разговорах, плохо распознает диалоги на другие темы. Аудиоданные в Clubhouse более многогранные, люди здесь обсуждают абсолютно любые темы. Чем больше вариативность — тем лучше получается система распознавания. Так что обучение нейросетей на таких аудиоданных позволило бы серьезно продвинуть голосовые технологии. Сегодня технологии позволяют обучать нейросети практически на лету, без многолетнего накопления аудиоданных: достаточно примерно тысячи часов записанных разговоров, чтобы начать обучение. 

Инвайт одобрения: какие социальные триггеры помогли Clubhouse набрать миллионы пользователей 

Рекламные кампании

Для бизнеса важно, чтобы любой контакт с клиентами или потенциальными клиентами можно было использовать для рекламы и продвижения своих продуктов, а также для сбора данных об аудитории, чтобы лучше таргетировать рекламные активности. Если Clubhouse хочет стать привлекательной рекламной площадкой, платформа должна предоставлять возможности для сбора и аналитики данных. Компании, платя за рекламу, хотят, чтобы она была эффективной, а для этого нужно проанализировать отклики о ней, продукте, услуге, конкурентах. И в Сlubhouse все это обсуждается не в виде текста, а в виде живой речи. Будет странно собирать этот фидбэк от пользователей вручную, да это и невозможно при таком объеме информации.

Контакт-центры банков, телеком-операторов и крупного ретейла, которые ежедневно обслуживают десятки тысяч голосовых сообщений, давно используют технологии речевой аналитики для мониторинга разговоров операторов с клиентами. Благодаря этому анализу компании могут быстро менять сценарии продаж, тарифы под спрос практически в режиме реального времени. И когда этот крупный бизнес начнет активно заходить в тот же Clubhouse, он будет ожидать, что сможет воспользоваться привычными инструментами. Для этого соцсети нужно выстроить те же самые системы, которые позволяют копить, обрабатывать и анализировать голосовые данные.

Вряд ли Clubhouse будет разрабатывать их с нуля, скорее, привлечет сторонних партнеров. В банках и у телеком-операторов внедрение и настройка таких систем занимает от трех до шести месяцев. Конечная стоимость проекта может достигать десятков миллионов рублей и будет зависеть от объема данных, то есть количества часов разговоров в сутки, которые нужно обрабатывать, а также от того, какое количество тем и отчетов эта система должна извлекать. 

Конечно, все это должно происходить с согласия пользователей, поэтому, вероятно, в комнатах Clubhouse просто появится дополнительный функционал — включение и отключение записи, как это сейчас сделано в Zoom. Также можно будет включать и отключать речевую аналитику и голосовую биометрию, что важно с точки зрения безопасности. Глобально все это должно иметь выгоду и для площадки, и для бизнеса, и для пользователей. В контакт-центрах это есть: бизнесу важно слышать голос клиента, реагировать, повышать лояльность. Клиент не против записи диалогов, потому что это улучшает его клиентский опыт. Такой же подход должен быть и в Clubhouse. 

Новый Дикий Запад: как пользователи Clubhouse научились зарабатывать в соцсети

Анализ эмоций

Анализировать эмоции и влияние голоса на аудиторию можно уже сейчас, но важно анализировать речь именно в контексте разговора. Так можно понять, что вызвало конкретную эмоцию и как ее избежать в будущем, если она негативная.

Такие технологии и процессы уже обкатаны в крупных контакт-центрах, так что в Clubhouse все будет выглядеть примерно так же. Например, клиент в брендированной или обычной комнате, где включили речевую аналитику, при разговоре с сотрудником компании, который не решил его проблему, абсолютно спокойно говорит: «У вас отвратительный сервис». А другой клиент, которому проблему не могут решить уже не в первый раз, не злится, а принимает решение уйти к конкуренту — и сообщает об этом специалисту с улыбкой: «Ну, хорошо вам оставаться, я, пожалуй, с вами расстаюсь». Простая оценка эмоций здесь не покажет реальной картины, важно понимать контекст взаимодействия и быстро на него реагировать. Поэтому современные технологии речевой аналитики используют для такой оценки несколько десятков параметров — и это позволяет, например, быстро исправить скрипт (сценарий диалога с клиентом, в котором прописаны возможные возражения клиента, ответы на эти возражения оператора и т. д. — Forbes).

Дополнительные материалы

Главные в Clubhouse: рейтинг самых популярных российских пользователей голосовой соцсети

Мнение автора может не совпадать с точкой зрения редакции