Генетический алгоритм условной оптимизации для проектирования информативных признаков в задачах классификации : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2021

Идентификатор DOI: 10.31772/2712-8970-2021-22-1-18-31

Ключевые слова: feature selection, feature construction, genetic algorithm, Constraint optimization, отбор признаков, извлечение признаков, генетический алгоритм, условная оптимизация

Аннотация: Проектирование признаков в машинном обучении является перспективным, но недостаточно изученным направлением. Создание нового пространства признаков из исходного набора позволяет повысить эффективность алгоритма машинного обучения, применяемого для решения сложных задач интеллектуального анализа данных. Некоторые методы отбора частоПоказать полностьюспособны одновременно при увеличении точности классификации уменьшить исходное пространство, что особенно актуально в эпоху больших данных. В работе предлагается новый подход машинного обучения к решению задачи классификации на основе методов проектирования информативных признаков. Проектирование информативных признаков осуществляется с помощью методов извлечения и отбора. На основании исходных данных созданы новые множества признаков, которые включают исходные признаки и признаки, полученные методом главных компонент. Выбор эффективного подмножества информативных признаков реализуется с использованием генетического алгоритма. Для того чтобы избежать переобучения и создания тривиальных классификаторов, на функцию пригодности генетического алгоритма накладываются ограничения, требующие определенного количества признаков исходной выборки, а также определенного количества признаков, полученных методом главных компонент. Проведен сравнительный анализ эффективности следующих алгоритмов классификации: k-ближайших соседей, метод опорных векторов и случайный лес. Эксперименты по исследованию эффективности проводятся путем решения прикладных задач бинарной классификации из репозитория задач машинного обучения UCI Machine Learning. В качестве критерия эффективности выбрана мера macro F1-score. Результаты численных экспериментов показали, что точность классификации предложенным подходом превосходит решения, полученные на исходном наборе признаков и при случайном отборе (оценка границы снизу). Причем, увеличение точности характерно для всех типов задач (выборки, у которых количество признаков больше числа объектов, а также объемом 500 значений и более). Подтверждена статистическая значимость результатов. Feature engineering in machine learning is a promising but still insufficiently studied domain. Creating new feature space from an original set allows increasing the accuracy of the machine learning algorithm chosen to solve complex data mining problems. Some existing selection methods are capable of simultaneously increasing the accuracy and reducing feature space. The reduction is an urgent task for big data problems. The paper considers a novel machine learning approach for solving classification problems based on feature engineering methods. The approach constructs informative features using feature selection and extraction methods. Original data and features obtained by principal component analysis form a new set of features. The genetic algorithm selects an effective subset of informative features. It is important to avoid overfitting and builng a trivial classifier. Therefore, the fitness function is constrained for producing the given number of original features and the given number of features obtained by principal component analysis. The paper describes a comparative analysis of three classifiers, namely k-nearest neighbors, support vector machine and random forest. In order to prove the accuracy improvement, the authors examine several real-world problems chosen from the UCI Machine Learning repository. The accuracy measure in the study is the macro F1-score. The results of numerical experiments show that the proposed approach outperforms the performance obtained using the original data set and the performance of random feature selection (the low bound for the results). Moreover, the accuracy enhancement is obtained for all types of problems (data sets that have more features than values). All results are proved to be statistically significant.

Ссылки на полный текст

Издание

Журнал: Сибирский аэрокосмический журнал

Выпуск журнала: Т. 22, 1

Номера страниц: 18-31

Место издания: Красноярск

Издатель: Сибирский государственный университет науки и технологий им. акад. М.Ф. Решетнева

Персоны

  • Денисов М. А. (Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева)
  • Сопов Е. А. (Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева)

Вхождение в базы данных