«Яндекс» сократил расходы на 4,8 млрд рублей за счет эффективного обучения нейросетей
«Яндекс» сообщил о сокращении операционных расходов на 4,8 млрд рублей в год за счет повышения эффективности обучения нейросетей. Ключевым технологическим решением стала библиотека YCCL, разработанная «Яндексом». Библиотеку, аналоги которой есть лишь у американских и китайских IT‑гигантов, можно масштабировать на крупные кластеры, отметили в компании
«Яндекс» за год сократил операционные расходы на 4,8 млрд рублей за счет значительного повышения эффективности обучения нейросетей, сообщила пресс-служба компании.
Глубокая оптимизация инфраструктуры достигнута благодаря прогрессу в обучении больших языковых моделей (LLM) без снижения качества и масштабов разработок.
Ключевым технологическим решением стала библиотека YCCL (Yet Another Collective Communication Library), разработанная «Яндексом». Она позволила вдвое ускорить обмен данными между графическими процессорами при обучении нейросетей, сократить объем передаваемой информации и перенести управление с графических на центральные процессоры.
Аналоги библиотеки YCCL есть лишь у американских Meta (признана в России экстремистской организацией и запрещена) и AMD и китайских IT‑гигантов, отметили в «Яндексе».
Другие компании зачастую прибегают к open source решениям с существенными недостатками. При этом библиотека YCCL масштабируется на крупные кластеры.
Кроме того, «Яндекс» перешел на формат с пониженной точностью вычислений FP8, который позволяет быстрее обучать нейросети и тратить на это меньше ресурсов. Применение FP8 ускорило обучение моделей на 30% и сократило обмен данными вдвое.
Также компания увеличила батч (объем передаваемых данных) до 16–32 млн токенов, что позволило обучать модели без замедления и при минимальном простое ресурсов графических процессоров. Уменьшила число аппаратных неполадок, сократила расходы на перезапуск обучения моделей, оптимизировала код и усовершенствовала архитектурные решения для обучения ИИ.
