В России нейросети будут обучать только на основе «честных» данных
Предлагается изменить правила работы с контентом и авторскими правами для разработчиков ИИ-моделей

В рамках подготовки законопроекта об искусственном интеллекте отраслевые ассоциации, ИТ-компании и профильные ведомства обсуждают норму, предполагающую раскрытие данных, на основе которых разработчики обучают нейромодели.
В частности, разработчиков хотят обязать раскрывать информацию о наборах данных, на которых обучались их системы. Необходимо будет указывать название набора данных, дату создания, формат, объем, назначение и происхождение.
Пока не решено, где будет храниться такая информация, в отдельном реестре ИИ или реестре наборов данных.
Законопроект
Минцифры работает над рамочным законопроектом. В текущей версии требования о раскрытии источников данных нет. Параллельно власти обсуждают критерии «российской» нейросети, правила маркировки ИИ-контента и ответственность за использование ИИ-технологий.
В стране уже действуют экспериментальные правовые режимы для тестирования цифровых инноваций. С 2025 года реализуется нацпроект «Экономика данных», который поддерживает исследования и разработки в сфере ИИ. Однако кодексы этики пока носят рекомендательный характер.
Плюсы и риски
Сторонники инициативы считают, что раскрытие данных повысит доверие к ИИ и упростит независимую оценку моделей. Это может сформировать открытый рынок данных и единые стандарты отчетности для разработчиков.
Разработчики со своей стороны опасаются повышения бюрократической нагрузки. Крупные модели используют миллионы источников, и их детальное описание потребует значительных ресурсов. А регулярные обновления еще больше усложнят процесс. Компании опасаются, что раскрытие состава датасетов лишит их модели конкурентных преимуществ.
Авторские права и рынок данных
Сегодня многие нейросети обучаются на основе открытых данных без отдельного согласия правообладателей. Это, с одной стороны, ускоряет развитие технологий, но с другой создает правовые коллизии. В США уже были громкие судебные процессы из-за использования журналистских материалов при обучении ИИ.
Если раскрытие источников станет обязательным, компаниям придется заключать лицензионные соглашения с владельцами контента. Возможен рост коммерческого рынка данных, где стоимость информации будет прямо зависеть от типа и ценности информации.
В то же время эксперты отмечают, что часть данных остается в свободном доступе, например общественное достояние и данные из открытых источников. Однако при работе с авторским контентом разработчикам придется уделять больше внимания юридической чистоте происхождения массивов данных.
Развитие новых технологий неизбежно порождает новые вопросы юридического и этического характера. Справедливые и верные ответы, устраивающие все стороны, на них мы получим в ближайшее время.








































