Цифровой кот: алгоритм от «Яндекса» CatBoost конкурирует с разработками бигтехов

Наравне с бигтехами
В состав узкой группы неамериканских технологий из пяти инструментов машинного обучения, наиболее часто упоминаемых в научных исследованиях мира, вошла российская разработка CatBoost, следует из отчета Marktechpost под названием ML Global Impact Report 2025, с которым ознакомился Forbes. Помимо алгоритма от «Яндекса», туда включены также Scikit-learn (Франция), AlphaFold (Великобритания), U-Net (Германия), GAN и RNN (Канада).
Авторы отчета выделяют ведущие роли США и Китая в мировых исследованиях. Первые отличаются широким спектром методов машинного обучения, применяемых в различных дисциплинах. Почти 90% ML-инструментов с открытым исходным кодом, на которые ссылаются в научных исследованиях 2025 года, разработаны в США, включая многие из основополагающих мировых фреймворков, используемых в обработке изображений, геномике и экологии. В то же время Китай — явный лидер по числу публикаций, на его долю приходится 43% всех статей, посвященных машинному обучению — более 2100 в 2025 году.
При этом если Китай, согласно отчету, концентрируется на небольшом числе высокоэффективных институтов, то США используют широкую экосистему. Новыми центрами ML-исследований становятся Индия и Саудовская Аравия. «Несмотря на ажиотаж вокруг генеративного ИИ, данные показывают, что научные исследования по-прежнему в основном строятся на зрелых методах машинного обучения», — обращают внимание в Marktechpost.
CatBoost используется в каждой 30-й статье с применением ML. Алгоритм «Яндекса» применяют ученые из 51 страны, включая США, Китай, Саудовскую Аравию и другие страны-лидеры в науке. В число авторов публикаций входят представители ведущих университетов мира, включая Harvard University, Massachusetts Institute of Technology, Stanford University и National University of Singapore, перечисляют эксперты. На долю США приходится 13% статей. Таким образом, CatBoost конкурирует наравне с продуктами бигтеха — примерно столько же у американских аналогов: XGBoost (15%, Вашингтонский университет), классический Gradient Boosting Model (12%, Стэнфордский университет) и LightGBM (10%, Microsoft).
В числе отраслей, где использовался CatBoost — медицина (помог добиться значимых результатов в прогнозировании рецидивов рака печени и обнаружении рака молочной железы, в ранней диагностики болезни Альцгеймера, прогнозировании преждевременных родов), прикладные науки (показал один из лучших результатов в прогнозировании индекса качества воды, использовался в сравнительном анализе методов прогнозирования спроса на зарядку электромобилей и показал высокую эффективность в выявлении фальшивых аккаунтов в социальных сетях).
Для чего создавался CatBoost
CatBoost разработан изначально для задач поиска «Яндекса», а сегодня широко применяется в самых разных его сервисах — «Погоде», «Директе», «Маркете», «Музыке» и других, уточняют в компании. Алгоритм выложен в открытый доступ в 2017 году.
Основная причина популярности заключается в том, что большинство практических задач машинного обучения опираются на табличные данные, поясняют в «Яндексе». CatBoost находит в таких таблицах сложные и неочевидные закономерности. «Например, когда пользователь вводит запрос в поиск, алгоритм обращается в гигантскую «электронную таблицу», где строки — это варианты материалов для выдачи, а столбцы — тысячи характеристик: параметры запроса, история запросов, регион, популярность сайтов, их свежесть и релевантность, а также комбинации признаков запроса/материалов, — продолжает представитель компании. — CatBoost ранжирует эти варианты, выбирая самые полезные. Также и в других сервисах, например параметры погодной модели — это столбцы с цифрами и категориями, и CatBoost предсказывает нужный параметр погоды, например вероятность дождя».
Там, где есть структурированные данные для принятия решений, CatBoost помогает их анализировать, будь то ранжирование страниц или диагностика заболевания по анализам пациента. Пример из медицины: есть таблица, где строки — это пациенты, а столбцы — их пол, возраст, диагноз и результаты анализов. Алгоритм, проанализировав тысячи таких строк, может предсказать, какое лечение будет наиболее эффективным для нового пациента или какой у него риск осложнений (именно по такому принципу алгоритм использовался в научных работах по диагностике болезней или рака), рассуждают в «Яндексе».
Индустриальный стандарт
Алгоритм широко применяет российский крупный бизнес и научные организации. К примеру, CatBoost интегрирован в многоуровневую ML-архитектуру «Авито» вместе с собственными алгоритмами машинного обучения и разработанной инфраструктурой для решения ряда задач, говорит руководитель команды рекомендаций «Авито» Михаил Каменщиков. Так, библиотека применяется в системе рекомендаций платформы, где помогает ранжировать объявления в режиме реального времени с учетом пользовательских признаков и характеристик предложений, приводит пример он.
«Кроме того, в моделях монетизации — предсказывает различные конверсии, которые используются в формуле продвижения. CatBoost решает задачи персонализации контента и оптимизации механик», — продолжает Каменщиков. Библиотека, по его словам, является стандартом в индустрии благодаря автоматической обработке категориальных признаков (категории товаров, регионы, типы продавцов и т.д.) и высокой скорости работы по сравнению с другими фреймворками. «Это критично для больших нагрузок и специфики «Авито», — говорит он.
«При разработке методов прогнозирования состояния литий-ионных аккумуляторов мы тестировали различные алгоритмы машинного обучения, — говорит автор исследовательского проекта на кафедре электрохимической энергетики в МФТИ Алексей Дружинин. — По итогам экспериментов CatBoost показал стабильную и достаточно высокую точность оценки уровня заряда батареи (SoC, State of Charge). При этом алгоритм эффективно работал «из коробки», без сложной ручной настройки». Благодаря этим результатам Дружинин с коллегами включил CatBoost в производственный и исследовательский стек: «Используем его в обучении экспериментальных цифровых двойников батарей на синтетических данных, чтобы прогнозировать различные свойства батареи — к примеру, деградацию или плотность электролита, что позволит более точно определять их срок службы».
