О проблеме выделения информативных признаков в задаче классификации текстовых документов

Описание

Перевод названия: On features selection approach for text mining problem

Тип публикации: статья из журнала

Год издания: 2013

Ключевые слова: text mining, выделение информативных признаков, классификация, feature selection, classification

Аннотация: Описан подход к решению проблемы выделения информативных признаков в задаче классификации текстовых документов. Задача характеризуется высокой размерностью пространства исходных признаков и сравнительно малым объемом обучающей выборки. Предложен алгоритм формирования подмножеств информативных признаков. С применением алгоритма решеПоказать полностьюна задача классификации медицинских документов. One approach of classification features selection for the text mining problem is proposed in the paper The initial system of features is defined in a high-order space, at the same time learning data set is relatively small. Classes form vast intersected system. One algorithm of features subsets generation is proposed in the paper. It is based upon compactness hypothesis: in every resulting features subset the nearest element to the one that belongs to the k's class, should also belong to the k's class, and the nearest element to the one that doesn't belong to the k's class, shouldn't belong to the k's class. Using the algorithm a medical documents classification problem, offered by JRS 2012 Contest team, has been solved. By its classification accuracy the proposed approach exceeds the nearest neighbors method and the Random Forest algorithm.

Ссылки на полный текст

Издание

Журнал: Вестник Томского государственного университета. Управление, вычислительная техника и информатика

Выпуск журнала: 1

Номера страниц: 96-103

ISSN журнала: 19988605

Место издания: Томск

Издатель: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Национальный исследовательский Томский государственный университет

Персоны

Вхождение в базы данных