Малы, да удалы: почему важны ИИ-модели, которые совсем не на слуху

Причем помещаться (и работать) отнюдь не в метафорическом смысле. Alibaba выпустила VLA Qwen 3.5, которая запускается локально на обычном смартфоне или старом ноутбуке — без подключения к серверам, без облака, без абонентской платы. Microsoft еще в прошлом году выкатила модель Phi-4 крошечного, по нынешним меркам, размера в 3,8 млрд параметров, которая обрабатывает документы объемом до 128 000 токенов и при этом превосходит по ряду тестов модели куда большего размера.
Недавно опубликованный сравнительный анализ возможностей малых моделей всерьез впечатляет (а попутно демонстрирует, что популярные рейтинги моделей не очень годятся для оценки их пользы на реальных задачах). При этом рынок малых моделей как раз нельзя назвать малым. В прошлом году его объем составил $9,4 млрд, сильнее всего он развит в Азиатско-Тихоокеанском регионе, темпы его роста оцениваются очень оптимистично.
Почему именно сейчас малые модели становятся так важны и популярны? Во-первых, квантование и дистилляция наконец-то заработали по-настоящему. На практике это значит, что большую модель можно «сжать» без критической потери качества, примерно как сжимают фотографию в форматJPEG так, чтобы она по-прежнему выглядела как хорошая четкая картинка, а не как пиксельная каша с артефактами. Еще пару лет назад потери качества в результате этих процедур были неприемлемы. Сейчас качество уже вполне годится для большинства практических задач.
Во-вторых, в смартфоны и ноутбуки массово встраиваются NPU — нейросетевые процессоры, заточенные именно под инференс ИИ-моделей. Apple, Qualcomm, MediaTek делают это стандартом, а не премиум-опцией. В-третьих, появились открытые веса. Упомянутые Qwen, Gemma, Phi — это файлы, которые можно скачать, запустить, модифицировать. Никто извне не контролирует, что с ними происходит на устройстве.
Есть и более глубокие причины, и они, возможно, даже важнее. Таких причин тоже три. Во-первых, это латентность. Когда модель работает прямо на устройстве, между вопросом и ответом нет подчас непредсказуемой задержки из-за передачи данных на сервер и обратно. Для промышленного датчика, который должен принять решение за миллисекунды, зачастую это разница между рабочим решением и красивой демонстрацией в идеальных условиях. Во-вторых, приватность. Данные пациента, финансовая документация, конфиденциальная переписка — ничего из этого физически не покидает устройство. Для здравоохранения, юриспруденции, военных применений это часто единственный способ вообще использовать ИИ. В-третьих, устойчивость в нашем ненадежном мире. Модель работает в джунглях, подземном тоннеле, на борту самолета, в деревне без стабильного интернета, во время перебоев с интернетом. Многие эксперты полагают, что именно поэтому следующий миллиард пользователей ИИ придет не через ChatGPT, а через офлайн-устройства. Такое предположение уже выглядит вполне разумным и логичным.
На первый взгляд, описываемый процесс может показаться праздником децентрализации и победой над бигтехами-монополистами. Я мог бы написать торжествующий абзац про то, как власть над технологиями возвращается людям, и отчасти это было бы правдой: модели с открытыми весами — это файлы, которые каждый может скачать один раз и запускать потом сколько угодно. Компания может заблокировать доступ к своим серверам, но в большинстве случаев не может удаленно стереть уже скачанные веса с устройства. Это реальный, пусть и ограниченный, выигрыш в автономии.
Однако честный анализ требует добавить: переход к edge AI (периферийному ИИ) не устраняет монополию до конца — часто он лишь модифицирует стек контроля. Раньше в нем безраздельно главенствовали облачные провайдеры. Теперь к ним добавляется — или частично их замещает — уровень производителей «железа» и операционных систем.
Google — яркий пример такого разноуровневого контроля: облако (GCP), модели (Gemma, Gemini), операционная система (Android), «железо» (процессоры Tensor в смартфонах серии Pixel), браузер (Chrome) и магазин приложений. На поверку оказывается, что децентрализация через Gemma на Android-устройстве — это переход от зависимости от Google Cloud к зависимости от операционной системы. Технически рубильник остается все в тех же руках, просто он теперь работает на другом уровне.
Здесь уместно провести историческую параллель с Web3. Ее идеологи и создатели тоже обещали децентрализацию и возврат власти пользователю примерно с той же риторикой: «меньше зависимости от больших игроков», «распределенные системы устойчивее». Но у них не получилось, и проиграли они на одном моменте — требовали от каждого обычного пользователя лично быть активным децентрализатором: понимать кошельки, ключи, ноды. Edge AI тоже не дает полной свободы, только теперь ее ограничения реализуются через производителей устройств, а не через малость числа идеологически мотивированных пользователей.
В итоге распространение малых моделей приводит к двойственной ситуации. С одной стороны, усиливается власть компаний, которые присутствуют на нескольких уровнях одновременно. В частности, поэтому захлебнулась поначалу казавшаяся опасной атака молодых и успешных ИИ-стартапов на традиционных бигтехов типа Google и Microsoft. Но одновременно возникло целое поле новых возможностей для компаний, комбинирующих open source и свои собственные программные наработки с open weight и опять же собственными моделями для различных специализированных решений. И это действительно громадное поле, а не просто ниша; оно объединяет столь разных участников, как энтузиасты-стартаперы, корпорации с сильными IT-департаментами и целые государства, отстаивающие свой технологический суверенитет.
Мнение редакции может не совпадать с точкой зрения автора
