Тип публикации: статья из журнала
Год издания: 2023
Идентификатор DOI: 10.47813/2782-5280-2023-2-2-0301-0313
Ключевые слова: information processing, unstructured text, named entity, lexeme, hidden Markov chain, обработка информации, неструктурированный текст, именованная сущность, лексема, скрытая Марковская цепь
Аннотация: В статье рассматривается один их возможных подходов к извлечению именованных сущностей из неструктурированных текстов. Отмечается сложность и трудоемкость наиболее распространенных методов решения данной задачи, базирующихся на использовании создаваемых вручную конечных автоматов. Возникает ряд сложностей при реализации данного подПоказать полностьюхода при обработке мультилингвистических текстов, так как для каждого нового языка и для каждого нового класса сущностей требуется вмешательство человека для создания вручную нового набора шаблонов для работы с новыми языками и новыми классами. Предлагаемый подход предполагает использование принципов машинного обучения. Дана постановка задачи и описана используемая модель марковской цепи при распознавании именованных сущностей. На основе данной модели для выделения именованных объектов ставится задача нахождения наиболее вероятной последовательности состояний, генерирующих последовательность лексем. В статье описан лексический материал, включающий состав признаков и их описания, представлена методика декодирования и оценка параметров модели. В данной работе для решения задачи используется алгоритм Витерби, который предназначен для нахождения последовательности состояний, для которых вероятность порождения наблюдаемой цепочки символов максимальна. В качестве экспериментальных результатов представлены характеристики точности распознавания типов лексем при различных размерах обучающей выборки и диаграмма количества ошибок по классам лексем. The article considers one of the possible approaches to the extraction of named entities from unstructured texts. The complexity and laboriousness of the most common methods for solving this problem, based on the use of manually created finite automata, are noted. There are a number of difficulties in implementing this approach when processing multilinguistic texts, since for each new language and for each new class of entities, human intervention is required to manually create a new set of templates for working with new languages and new classes. The proposed approach involves the use of machine learning principles. The statement of the problem is given and the model of the Markov chain used in the recognition of named entities is described. On the basis of this model for the selection of named objects, the task is to find the most probable sequence of states that generate a sequence of tokens. The article describes the lexical material, including the composition of features and their descriptions, presents the decoding technique and estimation of the model parameters. In this paper, to solve the problem, the Viterbi algorithm is used, which is designed to find a sequence of states for which the probability of generating the observed chain of symbols is maximum. As experimental results, the characteristics of the accuracy of recognition of types of lexemes for different sizes of the training sample and a diagram of the number of errors by classes of lexemes are presented.
Журнал: Информатика. Экономика. Управление
Выпуск журнала: Т. 2, № 3
Номера страниц: 301-313
ISSN журнала: 27825280
Место издания: Красноярск
Издатель: Красноярский государственный аграрный университет, ООО "Сибирский научный центр ДНИТ"