Перевод названия: CATEGORIZATION OF TEXT DOCUMENTS USING FUZZY CLASSIFICATION METHODS
Тип публикации: статья из журнала
Год издания: 2014
Ключевые слова: data mining, categorization, Fuzzy classification, constrained optimization, genetic algorithm, категоризация, нечёткий классификатор, условная оптимизация, генетический алгоритм
Аннотация: Решается задача выбора алгоритма классификации для задачи категоризации текстовых документов. Существуют выборки, характеризующие каждый текстовый документ с позиции сумм весов термов, содержащихся в нём, посчитанных различными метриками: бинарной, CW, C-Values, TF-IDF в различных вариациях. Таким образом, для каждого документа имеПоказать полностьюется атрибутов, где - число категорий, - число метрик. Для каждой категории термов в документе подсчитаны суммарные значения метрик, по которым нужно сделать вывод о принадлежности документа к тому или иному классу. Эту задачу можно рассматривать как задачу обучения с учителем, поскольку предоставлена обучающая выборка. Предложен подход по её решению, включающий в себя этапы фаззификации атрибутов, построения базы нечётких правил, дефаззификации полученных правил в численные соотношения, позволяющие сделать однозначный вывод о принадлежности документа к классу. На этапе формирования базы нечётких правил ставится задача условной оптимизации, которая может быть решена генетическим алгоритмом условной оптимизации. Task given is to choose classification algorithm in order to solve the problem of categorisation of text documents. Sample data characterizes each text document basing on sums of terms weights, assigned to different categories. The weights are received from applying different metrics such as binary, C-Values, TF-IDF in variations. Therefore, for every document attributes are found in sample data, where - stands for number of categories, m - for number of metrics. For every category of terms in a document sums of terms'' metrics are calculated, which should be used as attributes in the classification task. This classification task can be treated as a supervised learning task due to existing training set. Approach is proposed to use three stages such as fuzzification of attributes, finding fuzzy rules set, defuzzification of rules found in order to achieve numerical procedures that allow to uniquely assign each document to one of given categories. Second stage can be treated as a constrained optimization problem which can be solved using genetic algorithm for constrained optimization.
Журнал: Решетневские чтения
Выпуск журнала: Т. 2, № 18
Номера страниц: 131-133
ISSN журнала: 19907702
Место издания: Красноярск
Издатель: Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева