Тип публикации: статья из журнала
Год издания: 2023
Ключевые слова: text vectorization, genetic algorithm, machine learning, bag of words, векторизация текста, генетический алгоритм, машинное обучение, мешок слов
Аннотация: В данной статье предложен подход для повышения эффективности и обоснованности принятия решений при формировании интеллектуальных систем анализа текстовых данных. Целью является анализ и сравнение двух способов векторизации текста на стадии его предварительной обработки. Проверяется гипотеза использования генетического алгоритма с кПоказать полностьюаждым из способов для улучшения решения трех различных задач классификации текста. Результаты исследования показали убедительную эффективность использования частичного словаря совместно с генетическим алгоритмом и TF-IDF в качестве векторизации во всех трех тестовых задачах классификации текстов. This article proposes an approach for increasing the efficiency and validity of decision- making in the formation of intelligent systems for analyzing text data. The goal is to analyze and compare two methods of text vectorization at the stage of its preprocessing. The hypothesis of using a genetic algorithm with each method to improve the solution of three different text classification problems is tested. The results of the study showed the convincing effectiveness of using a partial dictionary together with a genetic algorithm and TF-IDF as a vectorization in all three text classification test problems.
Журнал: Перспективы науки
Выпуск журнала: № 12
Номера страниц: 46-48
ISSN журнала: 20776810
Место издания: Тамбов
Издатель: Фонд развития науки и культуры