Искусственный интеллект в России научился скорочтению
Разработка позволяет в разы ускорить настройку систем оптического распознавания текста и повысить их точность для работы с реальными документами

В России учёные НИТУ МИСИС разработали метод, который позволяет в разы ускорить настройку систем оптического распознавания текста и повысить их точность для работы с реальными документами. Новый инструмент сокращает время обучения OCR-систем с нескольких недель до 72 часов и делает их более пригодными для практического использования в бизнесе и государственном документообороте.
Избежать ошибок
Оптическое распознавание текста применяется при оцифровке договоров, счетов, архивных материалов и других документов. Однако на практике такие системы часто сталкиваются с ошибками из-за печатей, подписей, нестандартных шрифтов или низкого качества сканов. Для повышения точности OCR обычно требуется длительное и затратное обучение. Исследователи МИСИС предложили иной подход, объединив классические методы машинного обучения с современными генеративными нейросетями.
Основным элементом разработки стал замкнутый цикл взаимодействия OCR-движка и языковой модели. Система самостоятельно анализирует результаты распознавания, выявляет типовые ошибки и корректирует их, формируя новые обучающие данные.
В ходе экспериментов это позволило сократить срок подготовки моделей до трёх суток непрерывной работы и добиться точности распознавания русского текста выше 90%. Эта точность соответствует общепринятым стандартам.
В неидеальных условиях
Как отметил магистрант Института компьютерных наук НИТУ МИСИС Кирилл Пронин, использование генеративных моделей позволило снизить затраты на обучение почти на треть и уменьшить объём тестовой выборки. Дополнительным преимуществом стала возможность имитировать «неидеальные» условия: плохое качество печати, сложную вёрстку и размытые изображения. Это повышает качество обучения нейросети.
Доцент НИТУ МИСИС Александр Сулейкин подчеркнул:
Результаты исследования были представлены на международной конференции ISKE в Китае и лягут в основу новых промышленных и научных разработок.








































