По всем статьям: ИИ поможет «Рувики» анализировать и верифицировать контент

Роман РожковРедакция Forbes

Российский энциклопедический сервис «Рувики» внедрил комплекс ИИ-инструментов на своей платформе, узнал Forbes. Искусственный интеллект будет проверять данные, дополнять статьи и «патрулировать» площадку, чтобы не допускать нарушений законодательства. Контроль и перепроверка ИИ-контента останется за людьми и научными сотрудниками. На первом этапе, по оценкам аналитиков, стоимость проекта может составить 30-35 млн рублей, но развитие потребует дополнительных инвестиций. В процессе подготовки ИИ научных знаний в любом случае должен участвовать человек, так как полная автоматизация несет риски, обращают внимание эксперты

GPT отправляют в патруль

Российский энциклопедический сервис «Рувики» начал внедрять инструменты генеративного искусственного интеллекта для анализа, подготовки и верификации публикуемого контента, рассказал Forbes генеральный директор сервиса Владимир Медейко. «Цель проекта — обеспечить читателям доступ к актуальным и точным знаниям, исключая устаревшие данные и субъективные трактовки. Эти решения не убирают человека из создания энциклопедии, — подчеркивает он. — Мы расширяем наше сотрудничество с Российской академией наук, музеями и профильными экспертами. Но переводя часть рутинных процессов в автоматизацию, мы создаем сервис-помощник для редакторов, это позволяет соблюсти баланс между актуальностью, быстротой обновлений и обеспечением научной экспертизы и достоверности».

Материал по теме

В частности, на ресурсах энциклопедии внедрен ИИ-сервис, который автоматически обновляет статьи с помощью анализа лент информационных агентств. Сервис обогащает контент в коротких статьях, расширяя материалы за счет обработки различных источников, в том числе и на иностранных языках. ИИ-сервис автоматической генерации статей по запросу редакторов создает новые статьи из разных источников, проверяет текст и оформляет его в энциклопедическом стиле. Также, по словам Медейко, в дальнейшем «Рувики» внедрит антивандального бота, который автоматически выявляет и удаляет вандальные правки, сервис автоматической валидации контента — он отслеживает риски нарушения законодательства России, а также GPT-патрульных. Последние проверяют правки пользователей на предмет актуальности и достоверности. В «Рувики» стоимость реализации проекта не раскрывают.

Внедрение такого набора ИИ-решений, а также их поддержка может стоить около 30-35 млн рублей, предполагает гендиректор «ТМТ Консалтинг» Константин Анкилов. «Нужно понимать, что это не собственная разработка, а интеграция в сервис различных существующих решений», — рассуждает он. Схожих оценок придерживается и источник Forbes, близкий к проекту. По его словам, в дальнейшем затраты будут также направлены на доработку ансамбля ИИ-решений.

Альтернатива для «Википедии»

Проект «Рувики» был анонсирован в мае 2023 года на Российском интернет форуме (РИФ) и заработал в тестовом режиме в июне того же года, из которого вышел в январе 2024-го. Его создал и возглавил Владимир Медейко — директор некоммерческого партнерства «Викимедиа РУ» (признана Минюстом иноагентом), которое представляет в России фонд Wikimedia, писала «Бумага» (признана Минюстом иноагентом). За то, что Медейко занимается альтернативным проектом, находясь в должности директора «Викимедиа РУ», участники партнерства резко его осудили, а Wikimedia заблокировал Медейко во всех своих проектах.

Материал по теме

Представитель «Рувики» уточнил, что проект развивается на средства частных инвесторов (они не раскрываются). Запуск «Рувики» происходил на фоне недовольства ряда общественных и политических деятелей политикой «Википедии» — сервис публиковал данные, которые идут в разрез с российским законодательством. За 2024 год на «Рувики» было опубликовано свыше 81 000 новых статей на русском языке, всего в энциклопедии содержится более 2,159 млн материалов. По собственным данным, у проекта 7 млн уникальных пользователей в месяц. В октябре 2024 года сервис заявил об интеграции Yandex GPT для быстрого ответа пользователям, а еще ранее, в августе, на платформе запустилась монетизация — реклама и нативные баннеры, которые, как заверяют в «Рувики», «учитывают персонализированные интересы пользователей».

Роботы обучают роботов

О проблеме наполнения интернета в целом (и сегмента академических и энциклопедических знаний в частности) говорят давно. Исследователи в США и Евросоюзе на протяжении нескольких лет фиксируют случаи, когда применение человеком инструментов генеративного ИИ при создании научных знаний — статей в журналах, публикаций на вызывающих доверие энциклопедических ресурсах, а также докладов на научных конференциях — создает цепочку ошибок. Так, в феврале 2023 года ряд ученых из университетов США, Канады и ЕС обнаружили, что под их именами выходят недостоверные статьи в уважаемых научных журналах издательства Prime Scholars. Расследование показало, что они не имели никакой научной ценности и содержали выдуманные факты.

Схожий случай произошел в феврале 2024 года на академической платформе Frontiers, где была опубликована статья «Клеточные функции сперматогониальных стволовых клеток в связи с сигнальным путем JAK/STAT», которая сопровождалась сгенерированным ИИ изображением внутренних органов крысы. Научное сообщество было взволновано тем, что изображения не имели никакого отношения к реальности. После разразившегося скандала платформа удалила статью.

Такой тренд может привести к проблеме вала синтетического контента — постоянного роста объема сгенерированных ИИ научных данных, на которых обучается следующий ИИ. Этот цикл может привести к потере научного и академического знания на горизонте нескольких лет. По данным исследования Amazon Web Services 2023 года, уже 57% контента в интернете либо генерируется ИИ, либо переводится на другие языки с его помощью. «И он же используется для обучения ИИ», — говорит основатель и партнер исследовательского центра Mindsmith и футуролог Руслан Юсуфов. По его словам, наиболее тревожной выглядит ситуация в области создания ИИ академических «или, скорее, псевдоакадемических знаний».

Материал по теме

«Академия (в широком смысле этого слова) всегда была оплотом достоверной информации, которая проходила проверку сначала исследователя, затем его руководителя, а затем и еще нескольких верификаторов, например редакторов научных журналов, — продолжает Юсуфов. — Сейчас эта цепь взламывается. Если на каждом ее этапе к генерации контента подключается ИИ, работа которого не подвергается критической оценке человека, в итоге мы получаем не настоящее, а вымышленное научное знание. Поэтому мы рискуем через пять лет оказаться в ситуации, когда половина научных данных, на основе которых принимаются решения, выдуманы». По его мнению, вскоре возникнет запрос на доверенные и многоуровневые системы верификации контента.

Зарубежные исследовательские группы уже приходят к выводу о том, что научным организациям необходимы правила, регулирующие обмен неопубликованными научными исследованиями, исследовательскими методологиями и информацией и конфиденциальными данными. В таких условиях включение человека в контур управления ИИ — критически необходимая практика с точки зрения информационной безопасности, добавляет эксперт по социотехническому тестированию Angara Security Яков Филевский. «В настоящий момент мы можем наблюдать, что ИИ-системы регулярно генерируют убедительно выглядящую, но фактически неверную информацию. В энциклопедическом контексте это может привести к массовому распространению дезинформации под видом достоверных знаний», — рассуждает он.

ИИ заводят с двух ключей

Эксперты обращают внимание на то, что схожие внедренным «Рувики» инструменты уже работают в различных отраслях, при этом функция поиска запрещенного контента уже с технологической точки зрения работает на достаточно продвинутом уровне — как для пользователей, так и для компаний. Например, документы можно автоматически проверять на соответствие законодательству и внутренним регламентам компании в рамках работы ИИ-помощников для юридических отделов или закупок, говорит представитель MWS AI (входит в МТС Web Services). Автоматизация процессов с помощью генеративного ИИ будет только нарастать.

«ИИ действительно учится справляться с повторяющимися задачами. Представьте, что сотрудник выполняет одну и ту же операцию 500 раз в год — достаточно однотипную задачу, в отличие, например, от службы поддержки, где тысячи различных сценариев. В таких случаях процессы можно автоматизировать. Поэтому сначала выделяют наиболее рутинные и повторяющиеся задачи, а затем постепенно автоматизируют их с помощью ИИ», — добавляет представитель компании.

Ключевым фактором при внедрении ИИ в процессы создания контента, имеющего научную, академическую или иную ценность для принятия решений, остается следование правилу «второго ключа» — контроля и перепроверки человеком данных, сгенерированных искусственным интеллектом. «Такой подход, например, сейчас используют некоторые зарубежные соцсети при модерации контента и комментариев. Он позволяет ускорить изъятие из публичного доступа спорных материалов или публикаций, получивших множество жалоб, а модератор либо принимает финальное решение о блокировке контента, либо в дальнейшем может участвовать в споре, который открывает пользователь, чей материал был удален», — говорит Филевский.

Материал по теме