Какие вопросы перед разработчиками и государствами поставил выпуск ИИ-модели DeepSeek

Чем так примечательна очередная волна релизов больших языковых моделей (LLM), оказавшая такое сильное влияние на технологические компании? Распространенная в последнее время идея о невозможности реальной конкуренции с американскими поставщиками искусственного интеллекта (ИИ) оказалась ошибочной. Ранее они задавали стандарты, собирали инвестиции, внимание пользователей и таланты, не раскрывая ноу-хау. Теперь же выяснилось, что с куда меньшим бюджетом, в другой стране, не обучаясь в американских университетах, можно сделать не только сравнимую по качеству технологию, но и лучше. На мировой карте искусственного интеллекта появилась вторая яркая точка — Китай. В связи с этим вопросы, которые решались небольшой группой лидеров индустрии в кулуарном режиме, резко всплыли в повестке. Что это за вопросы?
Open source
Сомнения в необходимости открывать широкой публике внутренности технологии — архитектуру, исходный код и сами модели — сопровождали развитие LLM в последние годы. «Если переименуетесь в ClosedAI, я отзову иск», — шутил про OpenAI Илон Маск в соцсети Х (бывшая Twitter; соцсеть заблокирована в России) в контексте своих обвинений к компании. И причин для подобной скрытности было немало. Помимо опасений, что ИИ попадет в плохие руки, очевидно стремление защитить свою бизнес-модель. При стоимости обучения в десятки миллионов долларов отдавать в бесплатное пользование результат работы было бы немыслимо. Однако DeepSeek не только смог снизить стоимость обучения с помощью оптимизаций в 40 раз, но и отдал модель в публичное использование. Как результат, мгновенная восхищенная реакция сообщества, разработчиков и первое место в американских App Store и Google Play.
Чтобы вернуть важную группу инноваторов и энтузиастов, большие американские игроки будут вынуждены открывать (видимо, более слабые) модели в open source и ожесточенно сражаться за бенчмарки в платных версиях.
Защита персональных данных
Ваши запросы к ИИ на самом деле ценнее ответов, которые вы получаете. Использование запросов производителями LLM может быть различным, и пользователь вряд ли сможет этим управлять, особенно в первое время, пока правила игры только устанавливаются. С одной стороны, на этих запросах могут просто дообучать модели. С другой — у кого из нас не екало сердце при отправлении финансовых или иных данных «не для распространения» в запросе к ИИ?
Если OpenAI хотя бы на бумаге пишет, что не использует ваши запросы для собственных целей, то DeepSeek прямо говорит, что собирает все и сразу с обработкой по своему усмотрению. Конечному пользователю предлагается более дешевый или бесплатный доступ в обмен на данные. Такой подход вызывает беспокойство как работодателей, так и государств. В Италии и Ирландии уже удалили приложение DeepSeek из App Store из-за несоответствия политике GDPR (европейский закон о защите персональных данных). В дальнейшем их примеру могут последовать другие страны.
«Правильный» ИИ
Совсем недавно Трамп анонсировал Stargate — крупнейший ИИ-проект с бюджетом $500 млрд, желая застолбить за США лидерство в гонке технологий. Теперь очевидно, что у Китая планы не меньшие. Становится важно, «кто» владеет технологией. Государства активно включились в борьбу за ИИ, выделяя бюджеты на инфраструктуру и привлечение талантов. Помимо поддержки появляются и ограничения. Китай уже какое-то время назад внедрил систему проверки результатов LLM на обозначенный круг тем. К примеру, DeepSeek выдаст ошибку при ответе на вопросы про площадь Тяньаньмэнь (серия акций протеста на площади Тяньаньмэнь в Пекине, продолжавшихся с 15 апреля по 4 июня 1989 года, главными участниками которых были студенты, жестоко подавленных правительством Китая. — Forbes) или председателя КНР. «Правильная» модель должна давать «правильные» ответы на вопросы, которые имеют разные толкования в разных юрисдикциях.
Подобные системы проверки и сертификации будут появляться и в других странах, способствуя как поддержке отечественного производителя, так и распространению «правильных» толкований.
Регулирование
Чем ближе мы к универсальному искусственному интеллекту (artificial general intelligence, AGI), тем чаще поднимаются вопросы безопасности и регулирования. Поскольку никто еще до конца не понимает, что это такое, попытки ограничить скорость развития ИИ уже принимаются. Существующий подход был актуален для больших игроков и во многом лежал на их же плечах: ответственная подготовка данных, доучивание модели на соответствие этическим и прочим нормам, а также прохождение разнообразных (в том числе добровольных) проверок, таких как CBRN (Chemical, Biological, Radiological, and Nuclear), — обязательный процесс в жизненном цикле языковой модели.
Модель от DeepSeek сопоставима по качеству с другими крупными моделями, но в «производстве» существенно дешевле, а для пользователей бесплатна. Уменьшение стоимости разработки снижает барьер входа в технологию для более широкого круга участников и приводит к появлению большего количества моделей «без цензуры». Это значит, что и потребность в регулировании, и его ценность увеличатся. Если сейчас подобный ИИ может либо нахамить, либо серфить по запрещенным сайтам, то при дальнейшем развитии технологии регулирование может спасти жизни.
При всех минусах государственной гонки за технологиями очевидные плюсы для всех нас — LLM будет становиться еще дешевле, еще умнее и все больше интегрироваться в нашу повседневную жизнь, принося ценность и меняя наши рабочие процессы до неузнаваемости. Этот разогнавшийся поезд уже не остановить.
Мнение редакции может не совпадать с точкой зрения автора