Перевод названия: Algorithms of conceptual modeling and text classification in the tuvan language corpus
Тип публикации: статья из журнала
Год издания: 2017
Ключевые слова: корпус языка, анализ формальных понятий, концептуальные модели текстов, алгоритм классификации, алгоритмы снижения размерности контекстов
Аннотация: Корпус языка это информационно-лингвистическая система, основанная на собрании оцифрованных текстов некоторого языка. На сегодняшний день корпус тувинского языка включает официально-деловые документы и произведения тувинской художественной литературы. Работы по расширению корпуса тувинского языка и углублению уровня обработки тексПоказать полностьютов продолжаются. Они приводят к необходимости решения задач анализа естестественно-языковых текстов. Основными из этих задач являются классификация по прецедентам и концептуальное моделирование. Для их решения в статье используется алгебраический подход, называемый анализом формальных понятий. Предлагаются алгоритмы и программы для построения концептуальной модели коллекции литературных произведений и решения задачи бинарной классификации по прецедентам. Указаны приемы снижения вычислительной сложности рассматриваемых алгоритмов. В работе представлены результаты вычислительных экспериментов, подтверждающие результативность предложенных приемов по снижению сложности вычислений. Приведены результаты концептуального моделирования и бинарной классификации произведений тувинского фольклора. The corpus is an information-linguistic system based on the collection of digitized texts in some language. Nowadays, the corpus of Tuvan language includes official and business documents and Tuvan literary works. Expanding of the Tuvan corpus and deepening of the text processing level are continuening. These works lead to the tasks of a natural language text analysis. The main tasks is classification by precedents and conceptual modeling. In order to solve these problems, the paper uses an algebraic approach, which is called the analysis of formal concepts. The paper proposes algorithms and programs for constructing a conceptual model of literary works collection and solving the problem of a binary classification by precedents. There are methods of reducing computational complexity of the considered algorithms. The paper presents the results of computational experiments, which confirm the effectiveness of the proposed methods for reducing computation complexity. Finally, there are the results of conceptual modeling and binary classification of Tuvan folklore works.
Журнал: Программные продукты и системы
Выпуск журнала: № 3
Номера страниц: 487-495
ISSN журнала: 0236235X
Место издания: Тверь
Издатель: Закрытое акционерное общество Научно-исследовательский институт Центрпрограммсистем