стань автором. присоединяйся к сообществу!
Лого Сделано у нас
53

Нейросеть научили расшифровывать рукописные записи с дореволюционной орфографией

Столичный Главархив совместно с «Яндекс» разработали платформу «Поиск по архивам». Нейросеть распознает рукописные тексты в документах XVII—XIX вв.еков и переводит их в цифровой формат.

 © www.mos.ru

О скором создании этой платформы говорили еще в сентябре 2022 года. Сейчас сервис уже работает, опробовать можно здесь. Пока доступно 2,5 млн страниц метрических книг с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. В дальнейшем количество фондов и источников будет расти.

Сервис существенно экономит время в составлении генеалогического древа. Для сравнения: расшифровка страницы рукописного текста у профессионала займет до получаса, нейросеть же справится за несколько секунд. К тому же, на платформе «Поиск по архивам» есть фильтры по годам, архивам, фондам и описям. Неочевидный плюс технологии состоит еще и в минимизации выдачи оригиналов документов, тем самым спасая их от быстрого обветшания.

Нейросеть обучалась на сотнях тысяч рукописных строк из реальных текстов XVIII—XIX вв.еков и десятках миллионов сгенерированных примеров. В основу проекта лег сервис Главархива «Моя семья». Эксперты также помогали алгоритмам учиться распознавать рукописные тексты и следили за качеством расшифровки.

Хочешь всегда знать и никогда не пропускать лучшие новости о развитии России? У проекта «Сделано у нас» есть Телеграм-канал @sdelanounas_ru. Подпишись, и у тебя всегда будет повод для гордости за Россию.

Написать комментарий
Отмена
Для комментирования вам необходимо зарегистрироваться и войти на сайт,