Тип публикации: доклад, тезисы доклада, статья из сборника материалов конференций
Конференция: Актуальные проблемы авиации и космонавтики; Красноярск; Красноярск
Год издания: 2024
Ключевые слова: интеллектуальный анализ текста, кластеризация, мера TF-IDF, страны мира, язык программирования Python, text mining, clustering, TF-IDF measure, countries of the world, python programming language
Аннотация: В статье описывается подход к кластеризации стран мира на основе текстов из онлайн- энциклопедии Wikipedia с использованием меры TF-IDF и языка программирования Python. Приводится обзор TF-IDF вместе с описанием используемой программы и оценкой полученных кластеров. Предлагаются методы повышения качества результатов и сокращения выПоказать полностьючислительных ресурсов. The article describes an approach to clustering the countries of the world based on texts from the online encyclopaedia Wikipedia using the TF-IDF measure and the Python programming language. An overview of TF-IDF is provided together with an outline of the program used and an evaluation of the clusters obtained. Methods are suggested for improving the quality of results and reducing the computational resource involved.
Журнал: Актуальные проблемы авиации и космонавтики
Номера страниц: 103-105
Место издания: Красноярск