ИИ поможет изучить древнерусские рукописи

Ученые НИЯУ МИФИ и Института русского языка им. Виноградова РАН разрабатывают поисковик для изучения древних рукописей — лингвистическую интеллектуальную систему (ЛИС). Она сможет распознавать церковно-славянские рукописи XI–XVIII веков и представлять их выборку под конкретный запрос. Об этом сообщили в пресс-службе МИФИ.

Формировать корпус изучаемых объектов специалистам лаборатории помогут богослужебные книги — Минеи. Таких книг в библиотеках, архивах и хранилищах музеев сохранилось больше всего.

«В целом, когда мы работаем с дефицитом достоверной информации, лучше иметь побольше источников, которые как можно полнее могут рассказать о языке, а служебные рукописные книги были в большом ходу, имелись в каждой церкви, да и печатать их начали первыми, — рассказал руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов. — Сейчас у нас уже есть в цифровом виде примерно 250 книг (по 500 страниц каждая), хранящихся в РГБ, Историческом музее, областных библиотеках. Работа, которой мы занимаемся на первом этапе, если говорить на понятном для широкой публики языке, обратна тому, чем раньше занимались наборщики книг в типографии: они из букв составляли строки, а из строк — страницы, мы же обучаем машину распознавать границы текста, „вырезать“ строки, буквы, выносные знаки, буквицы и вязь. Это называется сегментация, за ней идет классификация, чтобы потом к одному тексту можно было бы подобрать целый ряд подобных и на основании выборки, например, датировать рукопись, проследить, как менялись текст, слово или знак на протяжении времени».

В интеллектуальную среду ЛИС «Рукописное наследие Древней Руси» можно будет постоянно добавлять новые рукописи, которые искусственный интеллект будет распознавать и при этом постоянно подстраивать свои алгоритмы распознавания.

«Для машинного обучения важно, чтобы было достаточное количество образцов — тогда можно быть уверенным, что на „открытом поле“, где ничего не размечено, нейронная сеть даст высокоточный результат. Если же материала будет недостаточно, то система сделает много ошибок. Каждая новая рукопись, которую мы обрабатываем, вносит свой вклад в донастройку моделей, „добавляет мозгов“ программе и обучает весь программный комплекс. Чем больше мы обработаем рукописей на этом этапе, тем релевантнее будет ответ на запрос пользователя — будь то поиск по текстам или изображениям», — объяснил Дмитрий Демидов.

По словам ученых, церковно-славянские тексты имеют свои особенности, которых нет в других языках. Это титлы (надстрочные знаки сокращения слов) и выносные буквы Словаря, который учитывал бы все виды слов и сокращений в церковно-славянском языке. Поэтому параллельно в лаборатории работают над созданием Морфологического словаря, в нем представят леммы со всеми словоформами и вариациями написания.

Не все страницы рукописей одинаково хорошо сохранились: где-то есть пятна, грязь, пожелтения, утраты, потрепанность, поэтому разница в яркости изображения не всегда может служить достаточным основанием для его сегментации. Нейросеть должна научиться распознавать изображение в нескольких режимах сразу — в различных цветах, изгибах линии.

Филологи же с помощью этого проекта хотят создать инструменты для изучения средневековых текстов.

«Почему историкам языка это интересно? Минеи — это огромный и практически не изученный корпус церковно-славянских текстов, содержащий службы на каждый день года, 12 томов, по одному тому на каждый месяц, — отметила ведущий научный сотрудник ИРЯ РАН и МИФИ Александра Плетнева. — И нет инструмента освоения этого массива. Поэтому машинное обучение и нейросети, которыми занимаются в рамках этого проекта в НИЯУ МИФИ, дадут филологам совершенно иные возможности. Они смогут работать сразу с огромными объемами похожих, но не идентичных текстов».

Изучение и сравнение этих текстов дадут исследователям возможность понять в исторической перспективе, где, когда и почему происходили изменения в языке — в его лексике, синтаксисе, пунктуации, орфографии. Открытый проект позволит увидеть развитие языка, рассмотреть все варианты использования определенной буквы или слова — во всех рукописях, внесенных в базу данных. У каждого исследователя в системе будет отдельный кабинет.

«Когда будут решены задачи распознавания и поиска, мы сможем в наших рукописях искать любые вещи, примерно так, как это делается сейчас в Яндексе. Допустим, можно будет сделать запрос в ЛИС по конкретному слову, словосочетанию, фрагменту вязи, буквице — как они менялись на протяжении 700 лет? В настоящее время у нас нет общедоступной системы распознавания славянских рукописей. Есть немецкая система Transkribus, но она, во-первых, платная, а во-вторых, требует специальной и довольно сложной настройки для каждого нового почерка, мы же создаем самообучающуюся систему, способную распознавать рукописи разных эпох и разных почерков. И самое главное — Transkribus распознает отдельные рукописи, но не объединяет результаты распознавания в корпус», — резюмировала Александра Плетнева.

Проект поддержан по Научному направлению программы «Приоритет 2030».

Источник

Хотите быть в курсе последних бизнес-новостей и событий? Подписывайтесь на Телеграм-канал "PROбизнес и финансы"