Перевод названия: Combined use of correlation measures in the task of selecting concepts in the construction of ontology
Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: IV Международная конференция и молодёжная школа "Информационные технологии и нанотехнологии"; Самара; Самара
Год издания: 2018
Ключевые слова: correlation, Principal Component analysis, ontology, concept, polychoric correlation coefficient, correlation ratio
Аннотация: В работе предлагается новый подход к отбору концептов для построения онтологии. Он основан на методе главных компонент, но, в отличие от стандартного подхода, используются не коэффициенты корреляции Пирсона, а другие корреляционные меры. Это связано с тем, что отбор концептов производится по данным о семантической связи между концеПоказать полностьюптами и прецедентами, представленным в виде весовых коэффициентов, принимающих дискретные значения и значительное число нулевых значений. Для таких случаев наиболее подходящим является полихорический коэффициент корреляции, он позволяет выявлять монотонную зависимость по таблицам сопряженности. Однако при определенной структуре таблиц коэффициент ошибочно указывает на тесную связь. Именно эта проблема детально проанализирована, и предложено в проблемных случаях использовать корреляционное отношение. На примере задачи отбора концептов для построения онтологии области ИТ-консультирования показаны преимущества предложенного подхода, состоящие в увеличении процента дисперсии концептов, объясненной выделенными компонентами. The paper suggests a new approach to the selection of concepts for the construction of ontology. It is based on the principal component analysis, but, unlike the standard approach, not Pearson correlation coefficients, but other correlation measures are used. This is due to the fact that the selection of concepts is based on data on the semantic connection between concepts and cases, which are represented in the form of weight coefficients that take discrete values and a significant number of zero values. For such cases, the most suitable is the polychoric correlation coefficient. It allows one to detect a monotonous dependence on the contingency table. However, for a certain table structure, the coefficient erroneously indicates a close relationship. It is this problem that has been analysed in detail, and it has been suggested to use the correlation ratio in problem cases. Using the example of the problem of selecting concepts for constructing the ontology of the IT consulting area, the advantages of the proposed approach are shown, consisting in increasing the percentage of variance of concepts explained by the principal components.
Журнал: Информационные технологии и нанотехнологии
Номера страниц: 2677-2686
Издатель: Предприятие "Новая техника"