25 февраля 2024

Sora неизбежна: каким может быть будущее видеотехнологий

Сергей Колесников Автор

Фото Jonathan Raa / NurPhoto via Getty Images

Stub — Фото Jonathan Raa / NurPhoto via Getty Images

Известная во всем мире своим чат-ботом ChatGPT компания OpenAI представила 15 февраля новую генеративную модель искусственного интеллекта под названием Sora. Она позволяет генерировать по текстовому описанию видеоролики, реалистичность которых изумила наблюдателей. Появление такого инструмента породило еще больше опасений насчет развития дипфейков, а также того, существование каких профессий Sora может поставить под угрозу уже сейчас. Руководитель лаборатории научных исследований искусственного интеллекта Tinkoff Research Сергей Колесников размышляет о том, как OpenAI удалось создать такую модель, где ее можно использовать и почему риски ее использования могут быть преувеличены

Почему Sora — не шаг, а гигантский скачок

Примерно месяц назад Google анонсировал запуск нейросети Lumiere, которая умеет генерировать 5-секундные ролики с разрешением 512x512 пикселей. И теперь OpenAI сделала, казалось бы, невозможное — создала генеративную модель Sora с реалистичными минутными роликами.

OpenAI обучал модель на видеороликах в оригинальном разрешении, как FullHD (1920x1080), а не на коротких видео с разрешением 512х512, как это было принято. По этой причине Sora может создавать и вертикальные, и горизонтальные видео, а также уходит от привычных квадратных генеративных роликов.

Материал по теме

Также успех OpenAI в том, что они разработали нейросеть на основе подхода, аналогичного DALL-E 3 (третье поколение нейросети Dall-E от Open AI, конкурента Midjourney и Stable Diffusion, позволяет генерировать картинки в разных стилях. — Forbes). Сначала они обучают отдельную модель для написания короткого, но точного описания видео. Потом с помощью GPT-4V (функция ChatGPT, с помощью которой нейросеть распознает изображения и учитывает их при ответе. — Forbes) создают детализированные описания, получая большое количество качественных и вариативных описаний видео для обучения Sora.

Кроме того, архитектура Sora позволяет не просто генерировать отдельные фрагменты видео, но и соединять их в единое целое. Это открывает возможности для создания длинных и связных видеороликов, ранее недоступных для AI-генерации. В итоге мы получаем реалистичные видео высокого качества до одной минуты.

Страху нет

С появлением такой мощной технологии, как Sora, конечно же, возникают риски злоупотребления. Даже к текущим генераторам картинок есть много вопросов касательно их неправомерного использования — генерации фейкового и запрещенного контента. Например, так было с Midjourney, когда люди стали генерировать реалистичные изображения с Дональдом Трампом или папой Франциском. С видео все выходит на совершенно новый уровень, ведь теперь можно сгенерировать любой инфоповод и подкрепить его видео-пруфом (фейком). Но мы видим, что OpenAI понимает это и принимает меры для защиты от потенциальных рисков. Так, согласно информации на сайте компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.

Материал по теме

Более того, в AI research community активно ведутся работы по маркировке генеративного контента, и возможно, в скором времени в каждом браузере будут встроенные generative-AI detectors. Важную роль играет и просветительская работа, ведь именно люди создают видео, а не сама AL/ML-модель. Нужно научиться понимать новые технологии и уметь ими пользоваться, а не бояться их.

Кого ждет perestroika

Без сомнений, Sora окажет заметное влияние на индустрию видеопродакшена. Например, можно будет в короткие сроки создать качественные рекламные ролики (до минуты). Но важно понимать, что в ближайшей перспективе нейросеть не сможет полностью заменить профессиональные видеостудии и креаторов — на данном этапе Sora не обучена создавать, например, фильмы и подобный качественный и долгий контент.

Как это было ранее с генерацией картинок и текстов, видеоконтента сейчас станет больше, а его качество в среднем ухудшится. Но те люди, которые научатся использовать Sora профессионально, останутся востребованными в индустрии.

Материал по теме

Что касается стартапов, то Sora наглядно показала — генерировать реалистичные видео более чем возможно. Если начнут появляться text-to-video проекты, которые захотят занять прибыльную нишу, это не вызовет удивления. Но, как это часто бывает, успех вряд ли будет долгим. OpenAI в любой момент может анонсировать новые фичи, которых ранее не было в Sora, и таким образом снова повысить планку для конкурентов.

Не только в рекламе

История AI-прорывов показывает, что любая новая технология становится общедоступной в open-source в следующие полтора года после запуска: сначала большие игроки рынка начнут активно пользоваться Sora (как это было с DALL-E и ChatGPT), а потом уже и все остальные.

Например, Sora предлагает безграничные возможности для маркетинга. Возможность создавать персонализированный и высококачественный видеоконтент способна радикально изменить подходы к рекламе и контент-маркетингу — генеративная реклама может полностью захватить рынок, в том числе и YouTube.

Sora не только задает новые стандарты качества видеопроизводства, но и меняет подходы к взаимодействию с аудиторией. У OpenAI получилось продемонстрировать потенциал развития искусственного интеллекта, и, возможно, на горизонте скоро появятся и другие технологические прорывы, которые нас так же удивят.

Мнение редакции может не совпадать с точкой зрения автора

Материал по теме