К сожалению, сайт не работает без включенного JavaScript. Пожалуйста, включите JavaScript в настройках вашего браузера.

Цифровой кот: алгоритм от «Яндекса» CatBoost конкурирует с разработками бигтехов

Фото Петра Ковалева / ТАСС
Фото Петра Ковалева / ТАСС
Алгоритм CatBoost от «Яндекса» вошел в число наиболее широко используемых инструментов машинного обучения (ML) в академических исследованиях ученых по версии американского издания Marktechpost. Доклад ML Global Impact Report 2025 охватывает исследования из более чем 125 стран и подчеркивает ведущую роль двух сверхдержав в области ML: США, создающих большинство ML-инструментов, и Китая, генерирующего наибольшее количество статей. CatBoost, созданный изначально для поиска «Яндекса», широко применяется в разных сервисах компании и используется крупным российским бизнесом и учеными многих стран мира, составляя конкуренцию разработкам ведущих компаний бигтеха, среди которых такие игроки, как Intel, Google, IBM, Amazon, Huawei или Alibaba

Наравне с бигтехами

В состав узкой группы неамериканских технологий из пяти инструментов машинного обучения, наиболее часто упоминаемых в научных исследованиях мира, вошла российская разработка CatBoost, следует из отчета Marktechpost под названием ML Global Impact Report 2025, с которым ознакомился Forbes. Помимо алгоритма от «Яндекса», туда включены также Scikit-learn (Франция), AlphaFold (Великобритания), U-Net (Германия), GAN и RNN (Канада).

Авторы отчета выделяют ведущие роли США и Китая в мировых исследованиях. Первые отличаются широким спектром методов машинного обучения, применяемых в различных дисциплинах. Почти 90% ML-инструментов с открытым исходным кодом, на которые ссылаются в научных исследованиях 2025 года, разработаны в США, включая многие из основополагающих мировых фреймворков, используемых в обработке изображений, геномике и экологии. В то же время Китай — явный лидер по числу публикаций, на его долю приходится 43% всех статей, посвященных машинному обучению — более 2100 в 2025 году.

При этом если Китай, согласно отчету, концентрируется на небольшом числе высокоэффективных институтов, то США используют широкую экосистему. Новыми центрами ML-исследований становятся Индия и Саудовская Аравия. «Несмотря на ажиотаж вокруг генеративного ИИ, данные показывают, что научные исследования по-прежнему в основном строятся на зрелых методах машинного обучения», — обращают внимание в Marktechpost.

 

CatBoost используется в каждой 30-й статье с применением ML. Алгоритм «Яндекса» применяют ученые из 51 страны, включая США, Китай, Саудовскую Аравию и другие страны-лидеры в науке. В число авторов публикаций входят представители ведущих университетов мира, включая Harvard University, Massachusetts Institute of Technology, Stanford University и National University of Singapore, перечисляют эксперты. На долю США приходится 13% статей. Таким образом, CatBoost конкурирует наравне с продуктами бигтеха — примерно столько же у американских аналогов: XGBoost (15%, Вашингтонский университет), классический Gradient Boosting Model (12%, Стэнфордский университет) и LightGBM (10%, Microsoft).

В числе отраслей, где использовался CatBoost — медицина (помог добиться значимых результатов в прогнозировании рецидивов рака печени и обнаружении рака молочной железы, в ранней диагностики болезни Альцгеймера, прогнозировании преждевременных родов), прикладные науки (показал один из лучших результатов в прогнозировании индекса качества воды, использовался в сравнительном анализе методов прогнозирования спроса на зарядку электромобилей и показал высокую эффективность в выявлении фальшивых аккаунтов в социальных сетях).

 
Telegram-канал Forbes.Russia
Канал о бизнесе, финансах, экономике и стиле жизни
Подписаться

Для чего создавался CatBoost

CatBoost разработан изначально для задач поиска «Яндекса», а сегодня широко применяется в самых разных его сервисах — «Погоде», «Директе», «Маркете», «Музыке» и других, уточняют в компании. Алгоритм выложен в открытый доступ в 2017 году.

Основная причина популярности заключается в том, что большинство практических задач машинного обучения опираются на табличные данные, поясняют в «Яндексе». CatBoost находит в таких таблицах сложные и неочевидные закономерности. «Например, когда пользователь вводит запрос в поиск, алгоритм обращается в гигантскую «электронную таблицу», где строки — это варианты материалов для выдачи, а столбцы — тысячи характеристик: параметры запроса, история запросов, регион, популярность сайтов, их свежесть и релевантность, а также комбинации признаков запроса/материалов, — продолжает представитель компании. — CatBoost ранжирует эти варианты, выбирая самые полезные. Также и в других сервисах, например параметры погодной модели — это столбцы с цифрами и категориями, и CatBoost предсказывает нужный параметр погоды, например вероятность дождя».

Там, где есть структурированные данные для принятия решений, CatBoost помогает их анализировать, будь то ранжирование страниц или диагностика заболевания по анализам пациента. Пример из медицины: есть таблица, где строки — это пациенты, а столбцы — их пол, возраст, диагноз и результаты анализов. Алгоритм, проанализировав тысячи таких строк, может предсказать, какое лечение будет наиболее эффективным для нового пациента или какой у него риск осложнений (именно по такому принципу алгоритм использовался в научных работах по диагностике болезней или рака), рассуждают в «Яндексе».

 

Индустриальный стандарт

Алгоритм широко применяет российский крупный бизнес и научные организации. К примеру, CatBoost интегрирован в многоуровневую ML-архитектуру «Авито» вместе с собственными алгоритмами машинного обучения и разработанной инфраструктурой для решения ряда задач, говорит руководитель команды рекомендаций «Авито» Михаил Каменщиков. Так, библиотека применяется в системе рекомендаций платформы, где помогает ранжировать объявления в режиме реального времени с учетом пользовательских признаков и характеристик предложений, приводит пример он.

«Кроме того, в моделях монетизации — предсказывает различные конверсии, которые используются в формуле продвижения. CatBoost решает задачи персонализации контента и оптимизации механик», — продолжает Каменщиков. Библиотека, по его словам, является стандартом в индустрии благодаря автоматической обработке категориальных признаков (категории товаров, регионы, типы продавцов и т.д.) и высокой скорости работы по сравнению с другими фреймворками. «Это критично для больших нагрузок и специфики «Авито», — говорит он.

«При разработке методов прогнозирования состояния литий-ионных аккумуляторов мы тестировали различные алгоритмы машинного обучения, — говорит автор исследовательского проекта на кафедре электрохимической энергетики в МФТИ Алексей Дружинин. — По итогам экспериментов CatBoost показал стабильную и достаточно высокую точность оценки уровня заряда батареи (SoC, State of Charge). При этом алгоритм эффективно работал «из коробки», без сложной ручной настройки». Благодаря этим результатам Дружинин с коллегами включил CatBoost в производственный и исследовательский стек: «Используем его в обучении экспериментальных цифровых двойников батарей на синтетических данных, чтобы прогнозировать различные свойства батареи — к примеру, деградацию или плотность электролита, что позволит более точно определять их срок службы».

Наименование издания: forbes.ru

Cетевое издание « forbes.ru » зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций, регистрационный номер и дата принятия решения о регистрации: серия Эл № ФС77-82431 от 23 декабря 2021 г.

Адрес редакции, издателя: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Адрес редакции: 123022, г. Москва, ул. Звенигородская 2-я, д. 13, стр. 15, эт. 4, пом. X, ком. 1

Главный редактор: Мазурин Николай Дмитриевич

Адрес электронной почты редакции: press-release@forbes.ru

Номер телефона редакции: +7 (495) 565-32-06

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети «Интернет», находящихся на территории Российской Федерации)

Перепечатка материалов и использование их в любой форме, в том числе и в электронных СМИ, возможны только с письменного разрешения редакции. Товарный знак Forbes является исключительной собственностью Forbes Media Asia Pte. Limited. Все права защищены.
AO «АС Рус Медиа» · 2025
16+