Специалисты Яндекса научили нейросеть распознавать старые рукописи
Алгоритм на основе оптического распознавания символов учтет особенности почерка, буквы, утратившие актуальность, и разберется в структуре документов прошлых веков.
Нейросеть учили на сотнях тысяч рукописных строк текстов, датированных XVIII–XIX веками, а также нескольких миллионов сгенерированных примеров. Эксперты, контролировавшие качество распознания текстов нейросетью, предварительно размечали и расшифровывали их самостоятельно.
На одну страницу рукописей, датированных XVIII– началом XX века, электронным «мозгам» требуется несколько секунд. Разработчики добавили фильтры по архивам, годам, описям и фондам. Построчная расшифровка нейросети Яндекса отображается рядом со сканом страницы.
Разработка поможет историкам, демографам, социологам и генеалогам, а также всем, кто ищет сведения о своих семьях. Первым в «Поиск по архивам» загрузили Главархив Москвы, на нем проходило обучение нейросети. Теперь в базу добавили документы из Оренбургской и Новгородской областей. Со временем число архивов и отсканированных документов будет расти.
изображение пресс-служба Яндекс