19 March 2024

Sora-тник в производстве: какое влияние окажет нейросеть от OpenAI на видеопродакшн

Александр ЗарщиковАвтор

Фото Costfoto / NurPhoto via Getty Images

Через месяц после презентации нового детища OpenAI — нейросети Sora, способной генерировать видеоролики на основе текстового описания, — компания наконец сообщила ряд подробностей о том, каким будет его развитие. Как рассказала СТО OpenAI Мира Мурати в интервью The Wall Street Journal, Sora станет публичной через несколько месяцев, добавится возможность создавать звук и редактировать контент. О том, как появление Sora повлияет на рынок видеопроизводства и настанет ли время, когда видео перестанут снимать, «заказывая» его ИИ, рассуждает креативный продюсер Filmway Production Александр Зарщиков

Прорыв не без изъянов

В OpenAI решили сразу продемонстрировать, «из какого Sora» создаются их видеошедевры: к каждому рендеру, которые вот уже месяц постепенно выходят в сетях X и TikTok, прикладывается промпт, то есть текстовое описание, на основе которого создавалось видео. Эти работы выглядят действительно впечатляюще по сравнению со всем тем, что предлагали нам возможности ИИ ранее.

Но дьявол, как всегда, в деталях: оценить реальные возможности и особенности работы нового продукта можно будет, только протестировав его. И тут будет иметь значение большое количество факторов, от точности реализации текстового промпта (и, соответственно, попадания в ожидания) до того, насколько модель будет действительно понимать контекст того, что ее просят создавать.

Заявлено, что Sora может понимать сложные запросы, включающие в себя описание нескольких персонажей и действий, а также детали бэкграунда. Пока мы можем видеть только генерации по чужим промптам, и в ряде случаев технология по понятным причинам допускает как логические ошибки (наверное, все видели, как в одном из футажей — коротком видеоролике, сделанном специально для видеомонтажа, — пожилая женщина не может затушить свечи на торте, несмотря на все старания), ошибки с масштабом и перспективой при движении камеры (в кадре зимнего Токио в начале видео главные герои ростом выше крыш сувенирных лавочек, мимо которых они проходят, а потом постепенно становятся «нормального» роста), так и ошибки более технического характера (люди в рендерах могут неожиданно куда-то исчезать, превращаться в совсем других персонажей, менять одежду).

Материал по теме

Но в любом случае мы уже сейчас видим несколько по-настоящему прорывных моментов. Первое — недостижимая ранее степень реализма в видео, создаваемом нейросетями. Некоторые кадры буквально не отличить от реальной съемки. Разницу между «было» и «стало» постарался продемонстрировать даже актер Уилл Смит. Около года назад его активно обсуждали из-за сгенерированного с помощью одной из нейросетей ролика, в котором он ел спагетти, но выглядело это одновременно и комично, и жутковато из-за того, что в видео было очень много артефактов. Именно из-за того, что выглядело это очень странно, ролик и завирусился. Сейчас же Уилл Смит снял такую сцену с поеданием спагетти в реальности и опубликовал в своем аккаунте в TikTok якобы как результат работы нейросети, подписав «AI video now». Публика оценила юмор — у ролика более 1,3 млн лайков (правда, сейчас видео уже недоступно).

Еще один важный анонсированный момент: модель «запоминает» персонажей и элементы бэкграунда и может показывать их с разных ракурсов, а также в разных сценах. Также решена проблема «мерцания» сгенерированных объектов, которая ранее была и фишкой, и бичом нейросетей, работающих с видео. Суть в том, что объекты незначительно, но постоянно меняются, что заметно даже в рамках хронометража одной сцены. И еще крутой момент — Sora может создавать видео, стилизованное под графическое. Пока были опубликованы рендеры только с 3D-графикой, но есть полная уверенность, что нейросеть может создавать CG (компьютерную графику) и в других стилях.

Безусловно, все это очень серьезные аргументы для того, чтобы сильно изменить рынок производства видео. 13 марта стало известно, что Sora станет доступна для пользователей до конца года, но на каких условиях, непонятно. Учитывая интерес к продукту и некоторые технические возможности (Sora выдает видео длительностью до минуты в достаточно высоком разрешении), доступ к нейросети, вероятно, будет серьезно ограничен с помощью высокой цены, поскольку при массовом наплыве пользователей для генерации видео такого хронометража и качества картинки будут нужны просто фантастические вычислительные мощности.

Вопрос интеллектуальных прав также остается открытым. Можно ли будет использовать сгенерированные видео в коммерческих целях без внесения каких-то дополнительных изменений, добавления в них своего творческого потенциала? Пока это неизвестно.

Forbes.Идеи для бизнеса

Канал о стартапах, новых идеях и малом бизнесе

Вот получит «Оскар», тогда и поговорим

Как в известном меме — «сейчас вы находитесь здесь». Когда фильм, сгенерированный нейросетью, получит главный приз на кинофестивале, тогда и поговорим. Но если серьезно, Sora, продемонстрировав впечатляющее качество технологии, показала: другие проблемы нейросетей, генерирующих видео, никуда не ушли. И это видно по примеру, когда нейросеть попыталась создать ролик по промпту «трейлер фильма о приключениях 30⁠-⁠летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, пустыня, кинематографический стиль, снято на 35⁠-⁠мм пленку, яркие цвета». Мы видим набор атмосферных кадров, отсутствие любого намека на сюжетную линию и абсолютно отсутствующий взгляд персонажей. На трейлер фильма совсем не похоже, и в данном случае это, безусловно, проблема не четкого брифа. Но не только.

Материал по теме

Можно бесконечно умиляться сгенерированным сценам с корги, пританцовывающим с селфи-палкой на пляже в Малибу, но если всерьез говорить об игровых рекламных роликах и тем более о полнометражном кино, то очевидно, что это не только крутая «картинка», но и, что гораздо важнее, драматургия, игра актеров, движение камеры, монтаж, работа композитора и многое другое. Ролик или фильм — это огромный пазл, который, сложившись, должен заставить человека что-то почувствовать. Компании из сферы видеопроизводства работают на территории эмоций, опираются на свою интуицию, талант и мастерство режиссеров, операторов, актеров, композиторов, сценаристов, продюсеров. И если по сюжету пара людей ссорится в кафе, то степень сопереживания зрителя будет основана на драматургии сцены и ее реализации — как внутрикадровой (герои в кадре должны делать вполне конкретные вещи, произносить нужные слова и реалистично выражать эмоции, соответствующие моменту), так и общей, учитывая связь с другими сценами. Движение камеры и общая стилистика съемки также должны работать на создание нужной атмосферы. А все вместе должно укладываться в сюжет и заставлять человека испытывать эмоции и сопереживать героям.

Без всего этого видео, сгенерированные нейросетями, так и останутся иллюстрациями технических возможностей AI, супердетализированными, но, по сути, бессюжетными видеороликами. И вот тут самый интересный момент: никто из обывателей пока точно не понимает, на каких видео обучали Sora. Ведь ИИ — это, по сути, то, чем ты его «кормишь». Сейчас выглядит так, будто это происходило на материале из коммерческих видеостоков — огромном массиве футажей, демонстрирующих какие-то условные ситуации с людьми, природу и т.д.

Возможно, если Sora пройдет длительное обучение уже на основе тысяч шедевров кинематографа, получится и захватывающая внутрикадровая драматургия, и интересное движение камеры. Но на сегодняшний день не очень понятно, насколько это реалистично как с технической точки зрения, так и с точки зрения соблюдения интеллектуальных прав мейджоров кино и в целом правообладателей. The New York Times до сих пор судится с OpenAI из-за того, что на текстах ее авторов, в частности, проходил обучение ChatGPT.

Материал по теме

Скучно не будет

Технические возможности, которые продемонстрировала Sora, потенциально могут дать грандиозный толчок развитию большого количества индустрий: созданию контента для VR (виртуальной реальности), видеоигр, генерации фонов для LCD-экранов, с помощью которых нередко снимается как кино, так и реклама, и др. Это может привести и к упрощению многих процессов. Та же возможность для стилизации видео, которую продемонстрировали разработчики Sora, может в ряде случаев существенно снизить производственные затраты при съемке роликов или фильмов.

Но появление Sora в общем доступе породит и сокращение спроса на определенные услуги, относящиеся к производству видео. Думаю, это затронет в первую очередь тех, кто занимался съемкой, скажем так, бессюжетного контента — «на выход» потянутся видеомейкеры, зарабатывающие на жизнь съемкой красивых пейзажей, несложными фуд-съемками или типовыми обучающими видео по каким-то темам. Индустрия футажей, скорее всего, через какое-то время станет вотчиной AI — если раньше условный кадр с рукой женщины, трогающей колосок пшеницы в поле на рассвете, снимали видеографы и продавали через сток, сейчас его можно будет сгенерировать с помощью ИИ. И это будет делать или Sora, или другие нейросети (уверен, такие появятся в обозримом будущем и у самих видеостоков).

Материал по теме

Но все равно останутся вещи, которые пока нельзя доверить AI. Например, в рекламном видеопроизводстве, помимо необходимости рассказывать истории, есть ряд специфических вопросов — видео должно отражать стиль и дух бренда, соблюдать требования законодательства, выражать правильное настроение и доносить рекламное предложение. То, что нейросеть сможет создать контент для большого бренда, который его полностью удовлетворит, пока не очень реалистично. Скорее речь может идти только о несложных и небольших проектах. Поэтому при всей впечатляющей технической мощи Sora то, что касается «управления контентом», пока останется в руках человека. В творческой работе многое идет от сердца и интуиции, которых нет у ИИ. Поэтому скорее не AI заменит творческого человека, а люди, научившиеся работать с нейросетями. Совсем не исключено, что часть режиссеров со временем переквалифицируются в промпт-инженеров, которые будут реализовывать свой талант, не вставая с кресла.

Пропорционально росту количества видео, созданного с помощью нейросетей, будет расти и запрос на творческий, «человеческий» контент. Пока нейросети создают «усредненные» по качеству ролики или музыкальные композиции, делают хорошие стилизации и компиляции, но настоящие «хиты» все равно останутся прерогативой человека, поскольку его уникальный взгляд, опыт и вдохновение пока недостижимы для ИИ. Возможно, ситуацию в этом смысле кардинально изменит появление квантовых компьютеров, но тогда глобальные изменения будут происходить уже буквально в каждой индустрии, а не только в видеопроизводстве. И нас всех ждут очень интересные времена.

Мнение редакции может не совпадать с точкой зрения автора

Материал по теме