Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: Региональные проблемы дистанционного зондирования Земли; Красноярск; Красноярск
Год издания: 2024
Ключевые слова: тексты авторефератов, ключевые характеристики, извлечение, регулярные выражения, abstract texts, key features, extraction, regular expressions
Аннотация: Актуальность автоматизации извлечения ключевых признаков из авторефератов диссертаций обусловлена быстрым ростом объема научной информации и необходимостью повышения эффективности ее обработки. С увеличением количества публикуемых диссертаций и авторефератов традиционные методы анализа оказываются недостаточными для быстрого и точнПоказать полностьюого извлечения данных. В данной статье подробно описывается разработка программного комплекса, сочетающего методы глубокого обучения, обработки естественного языка (NLP) и технологии оптического распознавания символов (OCR) для решения этой задачи. В настоящей работе для решения задачи автоматизированного извлечения ключевых характеристик из автореферата описаны этапы сбора данных, разработка алгоритма обработки текста, результаты экспериментальных исследований, проведенных на реальных авторефератах диссертаций. The relevance of automating the extraction of key features from dissertation abstracts is due to the rapid growth in the volume of scientific information and the need to improve the efficiency of its processing. With the increasing number of published dissertations and abstracts, traditional methods of analysis turn out to be insufficient for fast and accurate data extraction. This paper details the development of a software package that combines deep learning, natural language processing (NLP) and optical character recognition (OCR) techniques to solve this problem. To solve the problem of automated extraction of key features from an abstract, this paper describes the stages of data collection, the development of a text processing algorithm, and the results of experimental studies conducted on real dissertation abstracts.
Журнал: Региональные проблемы дистанционного зондирования Земли
Номера страниц: 310-313
Место издания: Красноярск