Распознавание рукописного текста исторических документов с применением технологий глубоких нейронных сетей : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2024

Идентификатор DOI: 10.17586/0021-3454-2024-67-9-767-775

Ключевые слова: neural networks, natural language processing, historical documents, deep learning, Tesseract-OCR Library, нейронные сети, обработка естественного языка, исторические документы, глубокое обучение, библиотека Tesseract OCR

Аннотация: Рассматривается задача распознавания рукописного текста на дореформенном русском языке с применением технологий глубоких нейронных сетей. В качестве исходных данных использованы отсканированные JPG-снимки исторических документов, в частности XIX века, содержащие различные шумы и помехи, что затрудняет работу алгоритма распознаванияПоказать полностью. Распознавание текста выполнено в три этапа: устранение шумов, сегментация (выделение) строк текста на изображении, так как входными данными для работы глубокой нейронной сети являются именно строки, и затем распознавание текста выделенных срок с помощью дообученной модели Tesseract OCR, осуществляющей электронный перевод изображений рукописного или печатного текста в текстовые данные. В качестве модели использована сверточно-рекуррентная нейронная сеть; модель представляет собой комбинацию сверточной нейронной сети для извлечения локальных признаков из изображения и рекуррентной нейронной сети, представленной двумя слоями двунаправленных сетей LSTM для обработки последовательности. Использование именно такой модели позволяет достоверно распознавать рукописный текст. The application of deep neural network technologies to the problem of handwriting recognition in pre-reform Russian is considered. The initial data used are scanned JPG images of historical documents from the 19th century, in particular containing various noises and interference, which complicates the work of the recognition algorithm. Text recognition is performed in three stages: noise removal, segmentation (highlighting) of text lines in the image, since the input data for the deep neural network are precisely the lines, and then recognition of the text of the highlighted lines using the pre-trained Tesseract OCR model, which performs electronic translation of images of handwritten or printed text into text data. The model used is a convolutional recurrent neural network; the model is a combination of a convolutional neural network for extracting local features from an image and a recurrent neural network represented by two layers of bidirectional LSTM networks for processing the sequence. Using this model allows for reliable recognition of handwritten text.

Ссылки на полный текст

Издание

Журнал: Известия высших учебных заведений. Приборостроение

Выпуск журнала: Т. 67, 9

Номера страниц: 767-775

ISSN журнала: 00213454

Место издания: Санкт-Петербург

Издатель: Министерство науки и высшего образования РФ

Персоны

  • Унтерберг А. М. (Сибирский федеральный университет)
  • Пятаева А. В. (Сибирский федеральный университет)
  • Замыслова С. С. (Сибирский федеральный университет)
  • Рукосуева Е. Д. (Сибирский федеральный университет)
  • Богданов К. В. (Сибирский федеральный университет)

Вхождение в базы данных