Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: Решетневские чтения; Красноярск; Красноярск
Год издания: 2024
Ключевые слова: анализ документов, машинное обучение, сегментация изображений, искусственный интеллект, распознавание изображений, document analysis, machine learning, Image Segmentation, artificial intelligence, image recognition
Аннотация: Задачи выделения данных из слабоструктурированных документов встречаются как в деятельности машиностроительных предприятий при анализе нормативно-справочной документации, ГОСТов или чертежей, так и в деятельности предприятий реального и госсектора. Для решения поставленных задач в работе предлагается формирование пайплайна машинногПоказать полностьюо обучения, содержащего последовательные этапы предобработки, сегментации и распознавания и постобработки изображений документов. The tasks of data extraction from weakly structured documents are encountered both in the activities of machine-building enterprises when analyzing regulatory and reference documentation, National Standards or drawings, and in the activities of enterprises in the real and public sectors. To solve the tasks set, the work proposes the formation of a machine learning pipeline containing successive stages of pre-processing, segmentation and recognition and post-processing of document images.
Журнал: Решетневские чтения
Номера страниц: 219-221
Место издания: Красноярск