bg
Культура, спорт и медиа
15:36, 23 июля 2025
views
13

Спасти древние тибетские рукописи поможет ИИ

Исследователь из России создала приложение, которое автоматически распознаёт, оцифровывает и анализирует классические тибетские тексты. Разработка выводит исследование древних рукописей на новый уровень и позволяет сохранить памятники культуры.

Революция в деле сохранения культурного наследия

Анна Мурашкина работала в Институте вычислительной математики и математической геофизики Сибирского отделения РАН, а сейчас учится на филологическом факультете Новосибирского государственного университета. Будучи молодым ученым, она разработала специальную программу, способную распознавать, оцифровывать и анализировать тибетские тексты и ксилографы XVIII–XX веков. Для проекта автор использовала материалы Института монголоведения, буддологии и тибетологии СО РАН.

В архивах Сибирского отделения Российской академии наук хранятся рукописи с бесценными знаниями о Тибете прошлых веков. Время и не самый благоприятный климат разрушают хрупкую бумагу, и наши потомки рискуют потерять древние литературные памятники. Проект Анны Мурашкиной можно считать революцией в сохранении мирового культурного наследия.

Главное – сохранить уникальные знания

Мурашкина вручную выполняла лингвистическую разметку строк, создав систему оценки качества оптического распознавания символов с учетом особенностей тибетского письма. Она выбрала и дообучила нейросетевую модель, обеспечив модульный алгоритм с этапами предобработки, сегментации, распознавания и постобработки. Сама автор считает главной задачей – сохранение исторических артефактов.

Серьезной проблемой являются доступные для ИИ данные — такие как фотографии исторических документов, или корпуса уже оцифрованных текстов. Ведь нейросетевая модель работает согласно тому, что уже видела, на чем училась. Если вы примените ChatGPT, обученный на современных текстах, к документам начала века, наверняка получите абсурдные замены персоналий. Абсурдные для обладателя «человеческого» интеллекта, но с точки зрения нейросети все будет верно, ведь в ее весах, ее «базе данных» именно эти слова чаще находятся рядом
quote

«Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранятся до 70 тысяч единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка», - говорит Анна Мурашкина.

Впереди – санскрит и старославянский

Приложение может быть полезно всем, кто работает с историческими документами на тибетском языке - исследователям, архивистам и сотрудникам библиотек. В будущем планируется внедрение системы в работу архивов Сибирского отделения РАН. Также ведутся переговоры с Буддийским центром цифровых технологий по возможному сотрудничеству для оцифровки документов монастырских фондов.

Практику можно применить для оцифровки и анализа текстов на других старинных языках. Система может быть адаптирована под алфавиты других стран (санскрит, старославянский), что открывает экспортный потенциал.

Благодаря созданию приложения расширяются возможности сотрудничества с международными буддийскими и научными центрами, появляются новые возможности для подготовки совместных гуманитарных проектов с применением искусственного интеллекта.

Искусственный интеллект меняет научный подход к изучению древних текстов. С помощью технологий ученые смогли прочесть ранее недоступные свитки и уточнить хронологию важных исторических событий. Разработка Анны Мурашкиной – смелый эксперимент молодого ученого, который будет востребован среди российских архивов и библиотек. Нейросеть действительно помогает ускорить работу специалистов, но без экспертов работа машины бесполезна. Очень важным аспектом прочтения и оцифровки старинных рукописей остается аутентичность, точность понимания и расшифровки. У специалистов в сфере искусственного интеллекта есть над чем работать, улучшая «чувствительность» и точность нейросети.

like
heart
fun
wow
sad
angry
Последние новости
Главное
Рекомендуем
previous
next