К РЕШЕНИЮ ЗАДАЧИ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ С ПОМОЩЬЮ НЕЧЁТКОЙ КЛАССИФИКАЦИИ

Описание

Перевод названия: CATEGORIZATION OF TEXT DOCUMENTS USING FUZZY CLASSIFICATION METHODS

Тип публикации: статья из журнала

Год издания: 2014

Ключевые слова: data mining, categorization, Fuzzy classification, constrained optimization, genetic algorithm, категоризация, нечёткий классификатор, условная оптимизация, генетический алгоритм

Аннотация: Решается задача выбора алгоритма классификации для задачи категоризации текстовых документов. Существуют выборки, характеризующие каждый текстовый документ с позиции сумм весов термов, содержащихся в нём, посчитанных различными метриками: бинарной, CW, C-Values, TF-IDF в различных вариациях. Таким образом, для каждого документа имеется атрибутов, где - число категорий, - число метрик. Для каждой категории термов в документе подсчитаны суммарные значения метрик, по которым нужно сделать вывод о принадлежности документа к тому или иному классу. Эту задачу можно рассматривать как задачу обучения с учителем, поскольку предоставлена обучающая выборка. Предложен подход по её решению, включающий в себя этапы фаззификации атрибутов, построения базы нечётких правил, дефаззификации полученных правил в численные соотношения, позволяющие сделать однозначный вывод о принадлежности документа к классу. На этапе формирования базы нечётких правил ставится задача условной оптимизации, которая может быть решена генетическим алгоритмом условной оптимизации.

Ссылки на полный текст

Издание

Журнал: Решетневские чтения

Выпуск журнала: Т.2, 18

Номера страниц: 131-133

ISSN журнала: 19907702

Место издания: Красноярск

Издатель: Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева

Авторы

  • Хаустов И.А. (Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева)
  • Панфилов И.А. (Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева)

Вхождение в базы данных