За год с момента начала работы сервиса «Поиск по архивам» пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз. Об этом рассказала Анастасия Ракова, заместитель Мэра Москвы по вопросам социального развития.
«На протяжении нескольких последних лет запросы, связанные с поиском предков и исследованием прошлого семьи, оказываются одними из самых популярных в Главархиве Москвы. Это особенно заметно в Год семьи. Семья для человека — это и предыдущие поколения, и будущие представители рода. Мы стремимся помочь жителям в столь важном деле и ищем способы сделать доступ к документам проще. Так, несколько лет назад мы открыли онлайн-сервис “Моя семья” и разместили в нем оцифрованные метрические книги — документы, содержащие сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий. На основе ресурса “Моя семья” нейросеть “Поиска по архивам” училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов», — рассказала Анастасия Ракова.
Сервис «Поиск по архивам» работает с начала 2023 года. Он помогает историкам, социологам, демографам и журналистам находить информацию об исторических событиях и личностях, а всем, кто интересуется историей своей семьи, — узнавать больше о своих предках. Работать с архивными документами на портале достаточно легко: необходимо лишь ввести слово, упоминание которого нужно найти, в поисковую строку.
На данный момент в базу загружено свыше 5,4 миллиона страниц исторических материалов из Главархива Москвы — это более половины всех данных сервиса. Сейчас на портале представлены документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Нейросеть распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX века: в сумме это свыше 10 миллионов страниц, или 492 миллиона строк.
В сервисе «Поиск по архивам» хранятся расшифрованные документы (например, метрические книги и ревизские сказки), в которых содержится информация о людях, родившихся в России до 1917 года. Кроме того, в базе собрано 3,6 миллиона оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва», и епархиальных ведомостей.
Технология расшифровки в сервисе «Поиск по архивам» основана на оптическом распознавании символов. Система узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует записи в печатный вид. Для работы с версткой газетных страниц нейросеть специально адаптировали: она научилась распознавать на огромных полосах текст, набранный мелким шрифтом на низкоплотной бумаге.
Фото: Главархив Москвы.