Разработчиков российских нейросетей могут обязать раскрывать исходные данные
Разработчиков отечественных моделей ИИ могут обязать раскрывать сведения о массивах данных, на которых обучалась или тестировалась их нейросеть, сообщили источники «Ведомостей». По мнению игроков рынка, полное и точное описание массива данных в реестровом формате потребует ресурсов, несоразмерных результату
Минцифры, отраслевые ассоциации и компании в области искусственного интеллекта прорабатывают законопроект, который может обязать разработчиков отечественных моделей ИИ раскрывать сведения о наборах данных, на которых обучалась или тестировалась их нейросеть, сообщили «Ведомостям» два участника обсуждения из различных компаний.
Одна из рабочих версий законопроекта предусматривает, что разработчик модели должен будет указать наименование набора данных, дату его создания, назначение использования, формат, объем и происхождение, уточнил один из них. Где будет агрегироваться вся эта информация, пока не определено. Речь может идти о создании реестра отечественного ИИ или реестра отечественных наборов данных.
Инициатива была предметом обсуждений при подготовке законопроекта об ИИ, но в текущую версию документа она не вошла, отметил собеседник издания. Представитель Минцифры подтвердил, что документ не содержит положений о раскрытии данных, на которых обучаются модели ИИ.
Представитель Альянса в сфере ИИ, в который входят в том числе «Сбер», «Яндекс», VK, Т-Банк и МТС, заявил по этому поводу, что полное и точное описание массива данных в реестровом формате потребует ресурсов, несоразмерных результату, или же сведется к формальному перечислению без аналитической ценности.
Исполнительный директор АНО «Координационная лаборатория» Мария Базлуцкая назвала инициативу очень своевременной, отметив при этом, что подробное раскрытие состава данных может затронуть конкурентные преимущества разработок. Инициатива создает существенную нагрузку на разработчиков и провайдеров, особенно при регулярных обновлениях моделей, согласился глава направления ИИ Cloud.ru Дмитрий Юдин. Темпы развития технологий всегда будут опережать законодательство, а это приведет к замедлению внедрения сервисов, отметил он.
Ранее, в декабре 2023 года, американская The New York Times подала в суд на OpenAI и Microsoft за нарушение авторских прав, обвинив их в использовании миллионов ее статей для обучения чат-ботов, которые теперь конкурируют с газетой и новостными агентствами как источники достоверной информации. Денежного требования иск не содержал. Но в нем подчеркивалось, что ответчики должны понести наказание за «миллиарды долларов законного и реального ущерба», связанного с «незаконным копированием и использованием уникально ценных произведений NYT».
Позднее аналогичные иски подали ряд других изданий и журналистов.
В случае, если инициатива по раскрытию массивов данных будет принята и вскроются случаи незаконного использования материалов без авторского права на него, такие судебные прецеденты могут появиться и в России, предупредил руководитель проектов компании «Интеллектуальная аналитика» Тимофей Воронин.
