20:50, 25 февраля 2026

В России нейросети будут обучать только на основе «честных» данных

Предлагается изменить правила работы с контентом и авторскими правами для разработчиков ИИ-моделей

В рамках подготовки законопроекта об искусственном интеллекте отраслевые ассоциации, ИТ-компании и профильные ведомства обсуждают норму, предполагающую раскрытие данных, на основе которых разработчики обучают нейромодели.

В частности, разработчиков хотят обязать раскрывать информацию о наборах данных, на которых обучались их системы. Необходимо будет указывать название набора данных, дату создания, формат, объем, назначение и происхождение.

Пока не решено, где будет храниться такая информация, в отдельном реестре ИИ или реестре наборов данных.

Законопроект

Минцифры работает над рамочным законопроектом. В текущей версии требования о раскрытии источников данных нет. Параллельно власти обсуждают критерии «российской» нейросети, правила маркировки ИИ-контента и ответственность за использование ИИ-технологий.

В стране уже действуют экспериментальные правовые режимы для тестирования цифровых инноваций. С 2025 года реализуется нацпроект «Экономика данных», который поддерживает исследования и разработки в сфере ИИ. Однако кодексы этики пока носят рекомендательный характер.

Плюсы и риски

Сторонники инициативы считают, что раскрытие данных повысит доверие к ИИ и упростит независимую оценку моделей. Это может сформировать открытый рынок данных и единые стандарты отчетности для разработчиков.

Разработчики со своей стороны опасаются повышения бюрократической нагрузки. Крупные модели используют миллионы источников, и их детальное описание потребует значительных ресурсов. А регулярные обновления еще больше усложнят процесс. Компании опасаются, что раскрытие состава датасетов лишит их модели конкурентных преимуществ.

Авторские права и рынок данных

Сегодня многие нейросети обучаются на основе открытых данных без отдельного согласия правообладателей. Это, с одной стороны, ускоряет развитие технологий, но с другой создает правовые коллизии. В США уже были громкие судебные процессы из-за использования журналистских материалов при обучении ИИ.

Если раскрытие источников станет обязательным, компаниям придется заключать лицензионные соглашения с владельцами контента. Возможен рост коммерческого рынка данных, где стоимость информации будет прямо зависеть от типа и ценности информации.

В то же время эксперты отмечают, что часть данных остается в свободном доступе, например общественное достояние и данные из открытых источников. Однако при работе с авторским контентом разработчикам придется уделять больше внимания юридической чистоте происхождения массивов данных.

Развитие новых технологий неизбежно порождает новые вопросы юридического и этического характера. Справедливые и верные ответы, устраивающие все стороны, на них мы получим в ближайшее время.

Госуправление и сервисы для граждан