Сжатое представление строгих ассоциативных правил в анализе данных : научное издание

Описание

Перевод названия: A contracted representation of strong associative rules in data analysis

Тип публикации: статья из журнала

Год издания: 2017

Ключевые слова: анализ данных, соответствия Галуа, замкнутые множества, ассоциативные правила, неизбыточность, сжатый строгий базис

Аннотация: Современные методы и средства поиска ассоциативных правил в больших массивах данных приводят к значи- тельному множеству правил, многие из которых являются избыточными. Избыточные ассоциативные правила не представляют ценности, но могут вводить в заблуждение. Для решения этой проблемы предложен алгоритм MClose, являющийся модификацПоказать полностьюией алгоритма Close. Известно, что с помощью алгоритма Close можно построить минимаксный базис для строгих ассоциативных правил (правил с достоверностью 1). Минимаксный базис интересен для экспертов тем, что каждое входящее в него правило имеет минимальную посылку и максимальное следствие. Однако минимаксный базис может содержать избыточные ассоциативные правила. Алгоритм MClose позволяет в процессе построения минимаксного базиса устранять избыточные правила. Результирующий базис назван сжатым строгим базисом. Удаленные ассоциативные правила всегда можно получить из сжатого строгого базиса с сохранением их поддержки и достоверности без обращений к анализируемому массиву данных. Алгоритм MClose основан на соответствиях Галуа и выводимостях, подобных аксиомам Амстронга, которые используются в теории реляционных БД для функциональных зависимостей. Как показали вычислительные эксперименты, алгоритм MClose по времени работы сопоставим с алгоритмом Close. Однако он примерно в два раза уменьшает число ассоциативных правил минимаксного базиса. В работе дано описание программы, в которой представлены алгоритмы MClose и Close. Modern methods and means of searching for association rules in big data lead to a significant number of rules, many of which are redundant. Redundant association rules are generally of no value, but they can misinform. To solve this problem, the paper proposes an algorithm MClose, which is a modification of the algorithm Close. It is known that Close algorithm might help to construct mini-max basis for strict association rules (association rules with the confidence of 1). Mini-max basis consists of only min-max association rules. Association rules with minimal antecedent and maximal consequent are called min-max association rules. Such rules are interesting for experts. However, mini-max basis may contain redundant association rules. The algorithm MClose immediately eliminates redundant association rules when creating mini-max basis. The resulting basis is called concise strong basis (CSB). Redundant association rules might always be obtained from the CSB without sacrificing their support and confidence, without references to the data set. Algorithm MClose is based on Galois connection. MClose algorithm is also based on derivability, which are similar on Armstrong axioms for functional dependencies. Experiments have shown that running time of algorithm MClose is comparable with the algorithm Close. However, it reduces the number of association rules mini-max basis about twice. We provide a description of the program which presents MClose and Close algorithms.

Ссылки на полный текст

Издание

Журнал: Программные продукты и системы

Выпуск журнала: 2

Номера страниц: 187-195

ISSN журнала: 0236235X

Место издания: Тверь

Издатель: Закрытое акционерное общество Научно-исследовательский институт Центрпрограммсистем

Персоны

Вхождение в базы данных