ИЗВЛЕЧЕНИЕ ДАННЫХ ИЗ СЛАБОСТРУКТУРИРОВАННЫХ МАШИНОПИСНЫХ И РУКОПИСНЫХ ДОКУМЕНТОВ

Описание

Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций

Конференция: Решетневские чтения; Красноярск; Красноярск

Год издания: 2024

Ключевые слова: анализ документов, машинное обучение, сегментация изображений, искусственный интеллект, распознавание изображений, document analysis, machine learning, Image Segmentation, artificial intelligence, image recognition

Аннотация: Задачи выделения данных из слабоструктурированных документов встречаются как в деятельности машиностроительных предприятий при анализе нормативно-справочной документации, ГОСТов или чертежей, так и в деятельности предприятий реального и госсектора. Для решения поставленных задач в работе предлагается формирование пайплайна машинногПоказать полностьюо обучения, содержащего последовательные этапы предобработки, сегментации и распознавания и постобработки изображений документов. The tasks of data extraction from weakly structured documents are encountered both in the activities of machine-building enterprises when analyzing regulatory and reference documentation, National Standards or drawings, and in the activities of enterprises in the real and public sectors. To solve the tasks set, the work proposes the formation of a machine learning pipeline containing successive stages of pre-processing, segmentation and recognition and post-processing of document images.

Ссылки на полный текст

Издание

Журнал: Решетневские чтения

Номера страниц: 219-221

Место издания: Красноярск

Персоны

  • Шуткина Е.В. (Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева)
  • Тынченко В.С. (Московский государственный технический университет имени Н. Э. Баумана (национальный исследовательский университет))
  • Васильев Д.И. (Московский государственный технический университет имени Н. Э. Баумана (национальный исследовательский университет))

Вхождение в базы данных