Спасти древние тибетские рукописи поможет ИИ

Исследователь из России создала приложение, которое автоматически распознаёт, оцифровывает и анализирует классические тибетские тексты. Разработка выводит исследование древних рукописей на новый уровень и позволяет сохранить памятники культуры.
Революция в деле сохранения культурного наследия
Анна Мурашкина работала в Институте вычислительной математики и математической геофизики Сибирского отделения РАН, а сейчас учится на филологическом факультете Новосибирского государственного университета. Будучи молодым ученым, она разработала специальную программу, способную распознавать, оцифровывать и анализировать тибетские тексты и ксилографы XVIII–XX веков. Для проекта автор использовала материалы Института монголоведения, буддологии и тибетологии СО РАН.
В архивах Сибирского отделения Российской академии наук хранятся рукописи с бесценными знаниями о Тибете прошлых веков. Время и не самый благоприятный климат разрушают хрупкую бумагу, и наши потомки рискуют потерять древние литературные памятники. Проект Анны Мурашкиной можно считать революцией в сохранении мирового культурного наследия.

Главное – сохранить уникальные знания
Мурашкина вручную выполняла лингвистическую разметку строк, создав систему оценки качества оптического распознавания символов с учетом особенностей тибетского письма. Она выбрала и дообучила нейросетевую модель, обеспечив модульный алгоритм с этапами предобработки, сегментации, распознавания и постобработки. Сама автор считает главной задачей – сохранение исторических артефактов.
«Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранятся до 70 тысяч единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка», - говорит Анна Мурашкина.

Впереди – санскрит и старославянский
Приложение может быть полезно всем, кто работает с историческими документами на тибетском языке - исследователям, архивистам и сотрудникам библиотек. В будущем планируется внедрение системы в работу архивов Сибирского отделения РАН. Также ведутся переговоры с Буддийским центром цифровых технологий по возможному сотрудничеству для оцифровки документов монастырских фондов.
Практику можно применить для оцифровки и анализа текстов на других старинных языках. Система может быть адаптирована под алфавиты других стран (санскрит, старославянский), что открывает экспортный потенциал.

Благодаря созданию приложения расширяются возможности сотрудничества с международными буддийскими и научными центрами, появляются новые возможности для подготовки совместных гуманитарных проектов с применением искусственного интеллекта.
Искусственный интеллект меняет научный подход к изучению древних текстов. С помощью технологий ученые смогли прочесть ранее недоступные свитки и уточнить хронологию важных исторических событий. Разработка Анны Мурашкиной – смелый эксперимент молодого ученого, который будет востребован среди российских архивов и библиотек. Нейросеть действительно помогает ускорить работу специалистов, но без экспертов работа машины бесполезна. Очень важным аспектом прочтения и оцифровки старинных рукописей остается аутентичность, точность понимания и расшифровки. У специалистов в сфере искусственного интеллекта есть над чем работать, улучшая «чувствительность» и точность нейросети.