02 мая 2024

Как нейросети проваливаются в «долину разочарования» и почему это хорошо

Валерий Ковальский Автор

Stub — Фото Nikolas Kokovlis / NurPhoto / Reuters

С момента появления ChatGPT прошло полтора года, и, преодолев все стадии от скепсиса до восторга, бизнес столкнулся с непониманием того, как использовать LLM (Large Language Models, большие языковые модели) в своих процессах и какой реальный бизнес-эффект они дают? Постепенно рынок осознает, что внедрение генеративного ИИ требует дополнительных инвестиций — как в компетенции, так и в ресурсы, — и двигается осторожно, соизмеряя возможную выгоду с рисками. О том, когда большие языковые модели займут уверенную позицию и достигнут пика своих мощностей, рассуждает Валерий Ковальский, СЕО AI-лаборатории Neuraldeep.tech (входит в группу компаний red_mad_robot)

Экосистема LLM в России

Для начала определимся с терминологией. Многие ошибочно используют термины GenAI (генеративный ИИ) и LLM как синонимы, но между ними есть принципиальная разница.

GenAI уместно использовать, когда обсуждается общая концепция искусственного интеллекта, способного создавать новые данные — текст, изображение, музыку и т. д., сам термин возник еще в середине 2010-х. LLM мы применяем, когда говорим о конкретных моделях машинного обучения, способных обрабатывать и генерировать естественный язык на основе огромных объемов данных, например ChatGPT от OpenAI, Gemini от Google, YandexGPT от «Яндекса».

Российский рынок LLM находится в стадии активного развития, двигаясь в двух ключевых направлениях: научном и бизнесовом. Научные исследования в основном ориентированы на адаптацию зарубежных технологических достижений, однако силами энтузиастов в России тоже создаются свои наработки, например ребята из МГУ создали и обучили токенайзер, который ускорил работу моделей на русском языке на 60%.

Материал по теме

Бизнес-аспект, в свою очередь, делится на тех, кто создает LLM и всю необходимую инфраструктуру, и тех, кто создает сервисы вокруг этих LLM. В первой группе находятся всем известные бигтехи — «Яндекс» с YandexGPT и «Сбер» со своим GigaChat. Эти модели рассчитаны на максимально широкий круг людей. По понятным причинам игроков на этом поле пока не может быть много: создание и обучение собственных языковых моделей требует колоссальных затрат и очень квалифицированной команды. При этом, по данным наших внутренних тестирований, мощности российских LLM сильно уступают зарубежным и составляют в среднем около половины от качества генерации последних. Однако при выполнении задач на кириллице российские LLM показывают себя лучше ChatGPT версии 3.5.

Во второй «лиге» — малые компании и стартапы, которые создают автоматизированные сервисы на базе больших языковых моделей. Так называемые ИИ-агенты, которые фокусируются на решении конкретных бизнес задач. По сути, это та же LLM, только кастомизированная под конкретную компанию. Одной из главных проблем, с которыми сталкиваются малые игроки на рынке, стал ограниченный доступ к ресурсам, необходимым для сбора и разметки данных, обучения и поддержки языковых моделей.

Сотрудничество бизнеса и науки является важным фактором развития LLM. Так бигтехи инвестируют в совместные проекты с технологическими стартапами и дают доступ к своим LLM, чтобы изучать возможности технологии и создавать новые продукты. Например, «Яндекс» предоставляет грант до 1 млн рублей для малого бизнеса в рамках программы Yandex Cloud Boost AI.

Telegram-канал Forbes.Russia

Канал о бизнесе, финансах, экономике и стиле жизни

Запрос бизнеса к генеративному ИИ

В российском сегменте LLM начинается «гонка вооружений». Языковые модели становятся мультимодальными, то есть способными обрабатывать различные типы данных: текст, визуалы, голос. Глобально корпорации создают мультимодальные LLM по двум причинам: с одной стороны, так они усиливают свои собственные сервисы, с другой — предоставляют инфраструктуру для бизнеса, который создает автоматизированные сервисы. Это win-win-схема, поскольку предпринимателям, в свою очередь, не нужно заботиться о сложном внедрении.

Материал по теме

У малого бизнеса есть запрос на то, чтобы автоматизировать какое-то небольшое направление работы, например общение с клиентами, лид-воронка и т. д. Такая модель наиболее актуальна для b2c-ориентированных сервисов, где нет необходимости в обработке «чувствительных» данных.

Однако в таких областях, как банковское дело, медицина, госсектор, как правило, присутствует большой объем конфиденциальной информации. И есть определенные риски в том, чтобы разворачивать их инфраструктуру во внешнем облаке. Поэтому такие компании чаще предпочитают сохранять информацию в своем контуре и выбирают кастомные решения для специфических задач, где не требуется использование огромных ресурсов.

При этом у крупного бизнеса запросы часто амбициознее — создать полностью автоматизированные и автономные системы, которые практически исключат использование человеческого труда в том или ином вопросе. Теоретически сделать это возможно, но на практике мы все чаще сталкиваемся с тем, что намного эффективнее (и реалистичнее) внедрять так называемых ИИ-агентов, которые будут, скорее, сопровождать работу менеджера, в разы ускорять ее, позволяя человеку переключиться на другую более «творческую» задачу.

Что тормозит внедрение LLM

Инновации всегда вызывают волну волнения, восторга, которая потом неизбежно переходит в фазу фрустрации. И хотя сейчас LLM находится на пике своей популярности, «тревожные звоночки» уже слышны.

О ChatGPT и других языковых моделях так или иначе слышали, наверное, все, но многие до сих пор не полностью осознают реальные возможности LLM, как и то, что ИИ на данном этапе развития способен лишь усилить возможности человека, а не заменить его и решить все проблемы.

Вместе с колоссальными затратами на инфраструктуру это в конце концов приводит к тому, что бизнес начинает задаваться вопросом: насколько ему это вообще нужно? Представим условный маркетплейс, который хочет усовершенствовать свою поисковую систему. В текущем виде она за пару секунд обрабатывает миллионы запросов в день, задействуя сложные механизмы индексации, статистики и т. д. Текущая система разрабатывалась около пяти лет, она стабильно держит нагрузку, и в целом все довольны. Однако в какой-то момент бизнес решает, что использование LLM поможет понимать запросы пользователей еще лучше и точнее. Бизнес начинает считать, во сколько обойдется такое внедрение. Понадобится примерно два года, новые люди в команде и железо, которое обойдется в десять раз дороже текущей поисковой системы. После всех этих подсчетов компания выбирает остаться на текущей поисковой системе, потому что все и так хорошо работает.

Материал по теме

Каждая задача, решаемая с помощью LLM, требует индивидуальной доработки и кастомизации, по мере которых растет и величина инвестиций. Для запуска LLM необходимо либо арендовать сервер (300 000 рублей в месяц), либо покупать (10 млн рублей). Проблемы с поставкой видеокарт только усугубляют ситуацию: в России легально их приобрести почти невозможно, к тому же очередь на покупку составляет в среднем 50 недель. Каждая видеокарта имеет по 80 ГБ видеопамяти. На одном сервере нужно две таких видеокарты, чтобы запустить LLM, которая будет хорошо решать задачи. Однако такая модель имеет определенную скорость работы: единовременно к ней может обратиться 50 человек. В дальнейшем придется ее масштабировать снова и снова.

Отсюда вытекает, что собственная языковая модель широкому кругу бизнеса — не очень-то и помощник. При этом на рынке появляются небольшие компании и сервисы, которые предоставляют продукты на базе существующих LLM (например, той же ChatGPT), — различные боты в Telegram, которые помогают решать определенные задачи. Соответственно, компаниям, которые этими продуктами пользуются, не приходится думать о том, хватает ли железа, мощностей, видеокарт и так далее.

Что дальше

Как и любая инновация, LLM пройдут классический цикл зрелости технологий: от пика завышенных ожиданий до «долины разочарования» и затем — к «плато продуктивности», то есть максимуму своей мощности. Разница лишь в том, что LLM, в отличие от других технологий, вероятнее всего, пройдут этот цикл быстрее из-за высоких темпов развития и стремительного проникновения в различные сферы деятельности.

Например, технология компьютерного зрения (Computer Vision, CV) проходила этот цикл семь-восемь лет. Когда-то ее архитектура тоже была очень дорогой, но теперь в каждом телефоне мы имеем несколько нейронных сетей CV: например, одна фотографирует, другая — распознает лицо, третья — ретуширует фото.

Материал по теме

Развитие LLM тормозят не только дороговизна внедрения и нехватка квалифицированных кадров, но и законы физики: мощность процессоров сегодня попросту ограничена их тепловыделением. Сейчас самая большая видеокарта от Nvidia потребляет почти киловатт электроэнергии. Кроме того, существует и проблема нехватки данных для обучения моделей, которая стоит не менее остро.

Таким образом, первый этап эйфории от LLM пройден — и начинается этап проработки конкретных решений, формирование рынка, поиск новых возможностей. Широкий круг бизнеса займет выжидательную позицию до тех пор, пока не появится стабильный поток кейсов внедрения и метрики для оценки эффективности технологии. В то же время активная часть рынка продолжит эксперименты с технологией и, вероятнее всего, будет делать ставку на удешевление инфраструктуры и на создание кастомизированных продуктов на базе LLM.

Мнение редакции может не совпадать с точкой зрения автора

Материал по теме