По всем статьям: ИИ поможет «Рувики» анализировать и верифицировать контент

GPT отправляют в патруль
Российский энциклопедический сервис «Рувики» начал внедрять инструменты генеративного искусственного интеллекта для анализа, подготовки и верификации публикуемого контента, рассказал Forbes генеральный директор сервиса Владимир Медейко. «Цель проекта — обеспечить читателям доступ к актуальным и точным знаниям, исключая устаревшие данные и субъективные трактовки. Эти решения не убирают человека из создания энциклопедии, — подчеркивает он. — Мы расширяем наше сотрудничество с Российской академией наук, музеями и профильными экспертами. Но переводя часть рутинных процессов в автоматизацию, мы создаем сервис-помощник для редакторов, это позволяет соблюсти баланс между актуальностью, быстротой обновлений и обеспечением научной экспертизы и достоверности».
В частности, на ресурсах энциклопедии внедрен ИИ-сервис, который автоматически обновляет статьи с помощью анализа лент информационных агентств. Сервис обогащает контент в коротких статьях, расширяя материалы за счет обработки различных источников, в том числе и на иностранных языках. ИИ-сервис автоматической генерации статей по запросу редакторов создает новые статьи из разных источников, проверяет текст и оформляет его в энциклопедическом стиле. Также, по словам Медейко, в дальнейшем «Рувики» внедрит антивандального бота, который автоматически выявляет и удаляет вандальные правки, сервис автоматической валидации контента — он отслеживает риски нарушения законодательства России, а также GPT-патрульных. Последние проверяют правки пользователей на предмет актуальности и достоверности. В «Рувики» стоимость реализации проекта не раскрывают.
Внедрение такого набора ИИ-решений, а также их поддержка может стоить около 30-35 млн рублей, предполагает гендиректор «ТМТ Консалтинг» Константин Анкилов. «Нужно понимать, что это не собственная разработка, а интеграция в сервис различных существующих решений», — рассуждает он. Схожих оценок придерживается и источник Forbes, близкий к проекту. По его словам, в дальнейшем затраты будут также направлены на доработку ансамбля ИИ-решений.
Альтернатива для «Википедии»
Проект «Рувики» был анонсирован в мае 2023 года на Российском интернет форуме (РИФ) и заработал в тестовом режиме в июне того же года, из которого вышел в январе 2024-го. Его создал и возглавил Владимир Медейко — директор некоммерческого партнерства «Викимедиа РУ» (признана Минюстом иноагентом), которое представляет в России фонд Wikimedia, писала «Бумага» (признана Минюстом иноагентом). За то, что Медейко занимается альтернативным проектом, находясь в должности директора «Викимедиа РУ», участники партнерства резко его осудили, а Wikimedia заблокировал Медейко во всех своих проектах.
Представитель «Рувики» уточнил, что проект развивается на средства частных инвесторов (они не раскрываются). Запуск «Рувики» происходил на фоне недовольства ряда общественных и политических деятелей политикой «Википедии» — сервис публиковал данные, которые идут в разрез с российским законодательством. За 2024 год на «Рувики» было опубликовано свыше 81 000 новых статей на русском языке, всего в энциклопедии содержится более 2,159 млн материалов. По собственным данным, у проекта 7 млн уникальных пользователей в месяц. В октябре 2024 года сервис заявил об интеграции Yandex GPT для быстрого ответа пользователям, а еще ранее, в августе, на платформе запустилась монетизация — реклама и нативные баннеры, которые, как заверяют в «Рувики», «учитывают персонализированные интересы пользователей».
Роботы обучают роботов
О проблеме наполнения интернета в целом (и сегмента академических и энциклопедических знаний в частности) говорят давно. Исследователи в США и Евросоюзе на протяжении нескольких лет фиксируют случаи, когда применение человеком инструментов генеративного ИИ при создании научных знаний — статей в журналах, публикаций на вызывающих доверие энциклопедических ресурсах, а также докладов на научных конференциях — создает цепочку ошибок. Так, в феврале 2023 года ряд ученых из университетов США, Канады и ЕС обнаружили, что под их именами выходят недостоверные статьи в уважаемых научных журналах издательства Prime Scholars. Расследование показало, что они не имели никакой научной ценности и содержали выдуманные факты.
Схожий случай произошел в феврале 2024 года на академической платформе Frontiers, где была опубликована статья «Клеточные функции сперматогониальных стволовых клеток в связи с сигнальным путем JAK/STAT», которая сопровождалась сгенерированным ИИ изображением внутренних органов крысы. Научное сообщество было взволновано тем, что изображения не имели никакого отношения к реальности. После разразившегося скандала платформа удалила статью.
Такой тренд может привести к проблеме вала синтетического контента — постоянного роста объема сгенерированных ИИ научных данных, на которых обучается следующий ИИ. Этот цикл может привести к потере научного и академического знания на горизонте нескольких лет. По данным исследования Amazon Web Services 2023 года, уже 57% контента в интернете либо генерируется ИИ, либо переводится на другие языки с его помощью. «И он же используется для обучения ИИ», — говорит основатель и партнер исследовательского центра Mindsmith и футуролог Руслан Юсуфов. По его словам, наиболее тревожной выглядит ситуация в области создания ИИ академических «или, скорее, псевдоакадемических знаний».
«Академия (в широком смысле этого слова) всегда была оплотом достоверной информации, которая проходила проверку сначала исследователя, затем его руководителя, а затем и еще нескольких верификаторов, например редакторов научных журналов, — продолжает Юсуфов. — Сейчас эта цепь взламывается. Если на каждом ее этапе к генерации контента подключается ИИ, работа которого не подвергается критической оценке человека, в итоге мы получаем не настоящее, а вымышленное научное знание. Поэтому мы рискуем через пять лет оказаться в ситуации, когда половина научных данных, на основе которых принимаются решения, выдуманы». По его мнению, вскоре возникнет запрос на доверенные и многоуровневые системы верификации контента.
Зарубежные исследовательские группы уже приходят к выводу о том, что научным организациям необходимы правила, регулирующие обмен неопубликованными научными исследованиями, исследовательскими методологиями и информацией и конфиденциальными данными. В таких условиях включение человека в контур управления ИИ — критически необходимая практика с точки зрения информационной безопасности, добавляет эксперт по социотехническому тестированию Angara Security Яков Филевский. «В настоящий момент мы можем наблюдать, что ИИ-системы регулярно генерируют убедительно выглядящую, но фактически неверную информацию. В энциклопедическом контексте это может привести к массовому распространению дезинформации под видом достоверных знаний», — рассуждает он.
ИИ заводят с двух ключей
Эксперты обращают внимание на то, что схожие внедренным «Рувики» инструменты уже работают в различных отраслях, при этом функция поиска запрещенного контента уже с технологической точки зрения работает на достаточно продвинутом уровне — как для пользователей, так и для компаний. Например, документы можно автоматически проверять на соответствие законодательству и внутренним регламентам компании в рамках работы ИИ-помощников для юридических отделов или закупок, говорит представитель MWS AI (входит в МТС Web Services). Автоматизация процессов с помощью генеративного ИИ будет только нарастать.
«ИИ действительно учится справляться с повторяющимися задачами. Представьте, что сотрудник выполняет одну и ту же операцию 500 раз в год — достаточно однотипную задачу, в отличие, например, от службы поддержки, где тысячи различных сценариев. В таких случаях процессы можно автоматизировать. Поэтому сначала выделяют наиболее рутинные и повторяющиеся задачи, а затем постепенно автоматизируют их с помощью ИИ», — добавляет представитель компании.
Ключевым фактором при внедрении ИИ в процессы создания контента, имеющего научную, академическую или иную ценность для принятия решений, остается следование правилу «второго ключа» — контроля и перепроверки человеком данных, сгенерированных искусственным интеллектом. «Такой подход, например, сейчас используют некоторые зарубежные соцсети при модерации контента и комментариев. Он позволяет ускорить изъятие из публичного доступа спорных материалов или публикаций, получивших множество жалоб, а модератор либо принимает финальное решение о блокировке контента, либо в дальнейшем может участвовать в споре, который открывает пользователь, чей материал был удален», — говорит Филевский.
