Алгоритм, позволяющий автоматически датировать средневековые манускрипты.

Сегодня в мире существует около миллиона недатированных средневековых документов, что затрудняет оценку их исторического значения. Однако сегодня компьютерные технологии позволяют исправить эту ситуацию.

 

Сегодня, более чем миллион уставов  —  церковные или государственные документы по учету имущества или земельных сделок, -- сохранились или в подлинниках или чаще, в древних копиях. Они обеспечивают представление о средневековой политике, экономике в десятом и четырнадцатом веках в Англии. Например, историки могут использовать эти документы для изучения взлета и падения военных и религиозных организаций. Хорошим примером является Орден Госпиталя Св. Иоанна Иерусалимского, религиозная и военная организация, созданная после завоевания Иерусалима в XI веке (Первый Крестовый поход).

Очевидно, что эти документы имеют огромную историческую ценность, но есть проблема: в большинстве своём уставы не датированы, особенно относящиеся к норманскому периоду (1066 — 1307 годы).

 

Сегодня группа исследователей под руководством Гелилы Тилахун из Университета Торонто разработала новые статистические методы, которые они используют для решения этой проблемы. Их подход заключается в обследовании 10000 датированных уставов, с точки зрения изменений в языке в течение долгого времени. Например, фраза "Amicorum meorum vivorum et mortuorum", которая означает "из моих друзей, живых и мертвых", была популярна в период с 1150 до 1240 года, а в другое время не употреблялась. Фраза "Francis et Anglicis", которая употребляется в  значении "на французский и английский языки", перестала употребляться, когда Англия проиграла Нормандии в 1204 году.

 

Тем не менее, статистический подход является гораздо более строгим, чем просто поиск общих фраз. Компьютерный поиск ищет закономерности в распределении слов. Такой подход выявляет различные модели, которые затем проверяются. При оценке используется также подход, который известен как максимальная техника распространенности. Это статистический метод, который дает наиболее вероятную дату путем сравнения множества слов в документе.

 

Исследователи говорят, что их подход также имеет и другие возможности использования. Например, с его помощью можно выявлять авторство и отсеивать подделки, которых, как известно, очень много.

 

Ссылка на источник (англ.)