Тип публикации: статья из журнала
Год издания: 2023
Ключевые слова: vectorization, lemmatization, machine learning, bag of words, natural language processing, illegal content, tokenization, evolutionary search, векторизация, лемматизация, машинное обучение, мешок слов, обработка естественного языка, противоправный контент, токенизация, эволюционный поиск
Аннотация: В данной статье предложен подход для автоматизации процесса выявления противоправного контента в интернете. Целью является анализ выбора комбинации методов машинного обучения и методов предобработки текстовых данных. Проверяется обоснование подхода к решению задачи выбора эффективной комбинации методов как задачи оптимизации глобалПоказать полностьюьным поисковым алгоритмом. Результаты выбора эффективного варианта комбинации методов показывают высокую точность в задаче поиска противоправного контента в виде текстовой информации. This article proposes an approach to automate the process of identifying illegal content on the Internet. The goal is to analyze the choice of a combination of machine learning methods and text data preprocessing methods. The rationale for the approach to solving the problem of choosing an effective combination of methods as an optimization problem using a global search algorithm is checked. The results of choosing an effective combination of methods show high accuracy in the task of searching for illegal content in the form of text information.
Журнал: Перспективы науки
Выпуск журнала: № 12
Номера страниц: 29-32
ISSN журнала: 20776810
Место издания: Тамбов
Издатель: Фонд развития науки и культуры