Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2021

Идентификатор DOI: 10.18287/2412-6179-CO-801

Ключевые слова: automatic classification algorithm, multidimensional histogram, regression probability density estimate, discretization of the range of values of a random variable, Large samples, antikurtosis coefficient, remote sensing data, алгоритм автоматической классификации, многомерная гистограмма, регрессионная оценка плотности вероятности, дискретизация области значений случайной величины, выборки большого объёма, коэффициент контрэксцесса, данные дистанционного зондирования

Аннотация: Предлагается непараметрический алгоритм автоматической классификации статистических данных большого объёма. Основу алгоритма составляет процедура оптимальной дискретизации области значений случайной величины. Под классом понимается компактная группа наблюдений случайной величины, соответствующих одномодальному фрагменту плотности вПоказать полностьюероятности. Рассматриваемый алгоритм автоматической классификации основан на «сжатии» исходной информации на основе декомпозиции многомерного пространства признаков. В результате статистическая выборка большого объёма преобразуется в массив данных, составленный из центров многомерных интервалов дискретизации и соответствующих им частот принадлежности случайных величин. Для обоснования процедуры оптимальной дискретизации используются результаты исследования асимптотических свойств регрессионной оценки плотности вероятности ядерного типа. Из условия минимума среднеквадратического отклонения регрессионной оценки плотности вероятности определяются оптимальные количества интервалов дискретизации области значений одномерной и двухмерной случайных величин. Полученные результаты обобщаются на дискретизацию области значений многомерной случайной величины. Формула оптимальной дискретизации содержит составляющую, которая характеризуется нелинейным функционалом от плотности вероятности. Устанавливается аналитическая зависимость обнаруженной составляющей от коэффициента контрэксцесса одномерной случайной величины. Для независимых компонент многомерной случайной величины определяется методика расчёта оценок оптимального количества интервалов дискретизации случайных величин и их длин. На этой основе разрабатывается непараметрический алгоритм автоматической классификации, который основан на последовательной процедуре проверки близости центров многомерных интервалов дискретизации и соотношений между частотами принадлежности случайных величин из исходной выборки этим интервалам. Для дополнительного повышения вычислительной эффективности предлагаемого алгоритма автоматической классификации используется многопоточный метод его программной реализации. Практическая значимость разработанных алгоритмов подтверждается результатами их применения при обработке данных дистанционного зондирования. A nonparametric algorithm for automatic classification of large statistical data sets is proposed. The algorithm is based on a procedure for optimal discretization of the range of values of a random variable. A class is a compact group of observations of a random variable corresponding to a unimodal fragment of the probability density. The considered algorithm of automatic classification is based on the «compression» of the initial information based on the decomposition of a multidimensional space of attributes. As a result, a large statistical sample is transformed into a data array composed of the centers of multidimensional sampling intervals and the corresponding frequencies of random variables. To substantiate the optimal discretization procedure, we use the results of a study of the asymptotic properties of a kernel-type regression estimate of the probability density. An optimal number of sampling intervals for the range of values of one- and two-dimensional random variables is determined from the condition of the minimum root-mean square deviation of the regression probability density estimate. The results obtained are generalized to the discretization of the range of values of a multidimensional random variable. The optimal discretization formula contains a component that is characterized by a nonlinear functional of the probability density. An analytical dependence of the detected component on the antikurtosis coefficient of a one-dimensional random variable is established. For independent components of a multidimensional random variable, a methodology is developed for calculating estimates of the optimal number of sampling intervals for random variables and their lengths. On this basis, a nonparametric algorithm for the automatic classification is developed. It is based on a sequential procedure for checking the proximity of the centers of multidimensional sampling intervals and relationships between frequencies of the membership of the random variables from the original sample of these intervals. To further increase the computational efficiency of the proposed automatic classification algorithm, a multithreaded method of its software implementation is used. The practical significance of the developed algorithms is confirmed by the results of their application in processing remote sensing data. A nonparametric algorithm for automatic classification of large statistical data sets is proposed. The algorithm is based on a procedure for optimal discretization of the range of values of a random variable. A class is a compact group of observations of a random variable corresponding to a unimodal fragment of the probability density. The considered algorithm of automatic classification is based on the "compression" of the initial information based on the decomposition of a multidimensional space of attributes. As a result, a large statistical sample is transformed into a data array composed of the centers of multidimensional sampling intervals and the corresponding frequencies of random variables. To substantiate the optimal discretization procedure, we use the results of a study of the asymptotic properties of a kernel-type regression estimate of the probability density. An optimal number of sampling intervals for the range of values of one- and two-dimensional random variables is determined from the condition of the minimum root-mean square deviation of the regression probability density estimate. The results obtained are generalized to the discretization of the range of values of a multidimensional random variable. The optimal discretization formula contains a component that is characterized by a nonlinear functional of the probability density. An analytical dependence of the detected component on the antikurtosis coefficient of a one-dimensional random variable is established. For independent components of a multidimensional random variable, a methodology is developed for calculating estimates of the optimal number of sampling intervals for random variables and their lengths. On this basis, a nonparametric algorithm for the automatic classification is developed. It is based on a sequential procedure for checking the proximity of the centers of multidimensional sampling intervals and relationships between frequencies of the membership of the random variables from the original sample of these intervals. To further increase the computational efficiency of the proposed automatic classification algorithm, a multithreaded method of its software implementation is used. The practical significance of the developed algorithms is confirmed by the results of their application in processing remote sensing data. A nonparametric algorithm for automatic classification of large statistical data sets is proposed. The algorithm is based on a procedure for optimal discretization of the range of values of a random variable. A class is a compact group of observations of a random variable corresponding to a unimodal fragment of the probability density. The considered algorithm of automatic classification is based on the «compression» of the initial information based on the decomposition of a multidimensional space of attributes. As a result, a large statistical sample is transformed into a data array composed of the centers of multidimensional sampling intervals and the corresponding frequencies of random variables. To substantiate the optimal discretization procedure, we use the results of a study of the asymptotic properties of a kernel-type regression estimate of the probability density. An optimal number of sampling intervals for the range of values of one-and twodimensional random variables is determined from the condition of the minimum root-mean square deviation of the regression probability density estimate. The results obtained are generalized to the discretization of the range of values of a multidimensional random variable. The optimal discretization formula contains a component that is characterized by a nonlinear functional of the probability density. An analytical dependence of the detected component on the antikurtosis coefficient of a one-dimensional random variable is established. For independent components of a multidimensional random variable, a methodology is developed for calculating estimates of the optimal number of sampling intervals for random variables and their lengths. On this basis, a nonparametric algorithm for the automatic classification is developed. It is based on a sequential procedure for checking the proximity of the centers of multidimensional sampling intervals and relationships between frequencies of the membership of the random variables from the original sample of these intervals. To further increase the computational efficiency of the proposed automatic classification algorithm, a multithreaded method of its software implementation is used. The practical significance of the developed algorithms is confirmed by the results of their application in processing remote sensing data. © 2021, Institution of Russian Academy of Sciences. All rights reserved.

Ссылки на полный текст

Издание

Журнал: Компьютерная оптика

Выпуск журнала: Т. 45, 2

Номера страниц: 253-260

ISSN журнала: 01342452

Место издания: Самара

Издатель: Федеральный научно-исследовательский центр "Кристаллография и Фотоника" Российской академии наук, Самарский национальный исследовательский университет им. акад. С.П. Королева

Персоны

  • Зеньков Игорь Владимирович (Федеральный исследовательский центр информационных и вычислительных технологий)
  • Лапко Александр Васильевич (Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева)
  • Лапко Василий Александрович (Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева)
  • Им Сергей Тхекдеевич (Институт леса им. В.Н. Сукачева СО РАН)
  • Тубольцев Виталий Павлович (Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева)
  • Авдеенок Валерий Леонидович (Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева)