Алгоритмические упражнения: РКН будет фильтровать трафик с помощью машинного обучения

Фильтрация по порядку
В этом году РКН намерен создать и внедрить механизм фильтрации интернет-трафика с использованием инструментов машинного обучения, на это планируется направить 2,27 млрд рублей. Об этом говорится в плане цифровизации РКН, представленном на рассмотрение президиума правительственной комиссии по цифровому развитию, использованию информтехнологий для улучшения качества жизни и условий ведения предпринимательской деятельности 26 декабря. Forbes ознакомился с документом.
Машинное обучение — технология, в основе которой математическая модель: она создает алгоритмы, которые автоматически извлекают нужные знания из массивов данных. Фильтруют весь российский трафик так называемые технические средства противодействия угрозам (ТСПУ). Они размещены на сетях операторов связи согласно закону о «суверенном интернете». РКН самостоятельно устанавливает и обслуживает ТСПУ на сетях операторов. ТСПУ позволяют блокировать доступ к запрещенным ресурсам с помощью технологии DPI (Deep Packet Inspection, глубокая фильтрация трафика по содержимому пакетов).
С помощью ТСПУ уже заблокировано более 1 млн запрещенных в России ресурсов. За день ТСПУ ограничивает доступ в среднем к 5500 новым сетевым адресам и доменам, рассказывал в интервью «Известям» замглавы РКН Олег Терляков в июне 2025 года.
У РКН есть еще один инструмент для блокировки ресурсов. С 2012 года служба ведет реестр запрещенных сайтов, куда вносит порталы с детской порнографией, информацией о наркотиках, способах совершения суицида, онлайн-казино, экстремистские материалы и другие ресурсы, запрещенные к распространению законом о защите детей. Операторы обязаны блокировать сайты из этого реестра.
С 2025 года федеральные ведомства обязаны отчитываться по проектам, связанным с внедрением ИИ-технологий, поэтому их добавление в программу цифровой трансформации «не удивляет», замечает источник, близкий к аппарату вице-премьера Дмитрия Григоренко. С другой стороны, РКН может хотеть находить запрещенный контент с помощью технологий машинного обучения, а еще лучше — выявлять VPN-сервисы, добавил он. «Насколько это выполнимо на практике и эффективно с финансовой точки зрения, с учетом необходимости доработки ТСПУ, не очевидно», — заключил собеседник Forbes.
«Мы не можем ничего нового сказать по теме», — заявили Forbes в РКН.
Области применения
Классические DPI-решения позволяют классифицировать типы трафика на основе фиксированных алгоритмов, поясняют в пресс-службе «Мегафона». DPI закрывают большинство базовых задач операторов связи, связанных с управлением сетью и обеспечением стабильности ее работы, добавили в компании. «При этом развитие сервисов и рост доли шифрованного и усложненного трафика в отдельных случаях требует применения дополнительных методов. В таких сценариях используются элементы эвристического анализа трафика, в котором и помогают механизмы машинного обучения», — отметили в пресс-службе оператора. «Мегафон» точечно применяет такие инструменты, в том числе и в защите от мошенников, как часть комплексного подхода к поддержанию устойчивой работы сети, сообщили в компании.
РКН хочет использовать машинное обучение для поиска нежелательного и запрещенного контента (или сайтов), считает партнер Comnews Research Леонид Коник. «Владельцы многих заблокированных ресурсов создают их копии (так называемые «зеркала») с другими адресами или же предпринимают иные ухищрения для обхода блокировок. Инструменты машинного обучения позволят блокировать такой контент не по интернет-адресам, а по словам, выражениям, предложениям или каким-то другим признакам. А заодно и находить тех, кто это скопировал или процитировал», — рассуждает эксперт.
Если посмотреть на то, как применяются технологии машинного обучения в корпоративных средствах анализа трафика для выявления угроз безопасности, и попробовать применить эти сценарии в масштабе Рунета, то можно выделить ряд основных вариантов расширения ТСПУ новым функционалом, размышляет бизнес-консультант по ИБ Positive Technologies Алексей Лукацкий. «Это выявление зашифрованного трафика или просто методов обхода блокировок ресурсов. Это важно в контексте курса РКН на блокировку VPN-сервисов. А также обнаружение DDoS-атак и выявление взаимодействия с командными серверами ботнетов и иных вредоносных инфраструктур, используемых кибермошенниками. Кроме того, можно классифицировать веб-приложения, находя те, которые запрещены в России (например, различные мессенджеры), и отличать стриминговый трафик от скачивания контента, что позволит выявлять пиратские ресурсы», — перечисляет он.
По словам Алексея Лукацкого, технологии машинного обучения позволяют реализовывать и более «прицельное» воздействие на сети — например, осуществлять «деградацию» конкретного типа трафика вместо «ковровых» мер. «Машинное обучение в DPI — это способ лучше «угадывать, что за трафик», когда классические методы обнаружения по сигнатурам, портам и т.п. уже не помогают», — заключает он.
Инструменты машинного обучения на ТСПУ могут использоваться для разработки и автоматического применения правил фильтрации трафика, не исключает эксперт организации RKS-Global, пожелавший остаться анонимным: например, чтобы находить и блокировать трафик VPN-сервисов. Кроме того, полагает он, такие инструменты позволяют осуществлять поиск по текстам на разных языках и по изображениям и видео: «Так, Китай уже вовсю использует ИИ в мониторинге интернета».
Автоматизированное сито
Помимо машинного обучения, РКН уже использует для поиска запрещенной информации в интернете ИИ-технологии. Руководитель надзорной службы Андрей Липов в интервью «Известиям» в сентябре говорил о том, что ведомство применяет нейросетевые технологии для анализа текстовой, аудио- и визуальной информации. По его словам, это позволило сократить время обнаружения запрещенной информации с момента ее появления в интернете в среднем до шести часов (против 48 часов в 2020 году).
Заместитель руководителя РКН Вадим Субботин в июле 2025 года рассказывал, что автоматизированная система службы в среднем в сутки скачивает около 0,5 млн релевантных материалов, и после последовательного анализа системой и обработки оператором остается около 2000 материалов с нарушениями законодательства России. «Автоматизированное «сито» позволяет операторам сосредоточиться на более сложных и требующих глубокой экспертизы задачах. В результате эффективность работы существенно возрастает, а затраты на обработку информации значительно снижаются», — пояснял он.
Уже используют ИИ и автоматизированные системы «Окулус» и «Вепрь». Первая как раз позволяет искать запрещенный контент на видео и аудиозаписях, а вторая — находить так называемые «точки информационной напряженности» в соцсетях и СМИ.
Впрочем, не для всех систем РКН применение ИИ оказалось одинаково действенным. Так, в системе мониторинга использования персональных данных в интернете служба тестировала нейросети, но, по признанию замруководителя РКН Милоша Вагнера, их эффективность оказалась не так высока: «В тестовом режиме посмотрели на работу нейросетей, оценили их результативность в 60%. <…> Чтобы ожидаемая точность анализа повысилась, <…> нужно было составить обучающие датасеты по объемам, превосходящим мониторинг всех сайтов, который Роскомнадзор проводил за несколько лет. Такие трудозатраты в условиях необходимости экономии средств мы сочли на этом этапе преждевременными».
