Тип публикации: статья из журнала
Год издания: 2022
Ключевые слова: nltk, н-граммы, коэффициент Жаккара, расстояние Левенштейна, естественный язык, шинглы
Аннотация: В работе представлены реализации алгоритмов сравнения текстов на близость на языке программирования Python. Предложен комплексный алгоритм последовательного использования метрик анализа текста. Проведены сравнения наборов текстов и проанализированы результаты.
Журнал: Научно-технический вестник Поволжья
Выпуск журнала: № 6
Номера страниц: 46-50
ISSN журнала: 20795920
Место издания: Казань
Издатель: ООО «Рашин Сайнс»