НЕВЕРБАЛЬНЫЕ МАРКЕРЫ ЭМОЦИЙ ДЛЯ СЕНТИМЕНТ-АНАЛИЗА РУССКОЯЗЫЧНЫХ ИНТЕРНЕТ-ТЕКСТОВ : научное издание

Описание

Тип публикации: статья из журнала

Год издания: 2020

Идентификатор DOI: 10.37482/2227-6564-V038

Ключевые слова: русскоязычные интернет-тексты, классификатор текстов, машинное обучение, невербальные маркеры эмоций, сентимент-анализ, Russian-language Internet texts, Text classifier, machine learning, non-verbal emotionmarkers, sentiment analysis

Аннотация: Статья посвящена описанию начальных этапов проекта по разработке классификатора интернет- текстов на русском языке по критерию эмоциональной тональности. Целью проекта является создание алгоритма сентимент-анализа, атрибутирующего тексты к одному из 8 классов эмоций по модели «куб Лёвхейма». Необходимыми этапами проекта выступают тПоказать полностьющательный отбор языкового материала для обучающей выборки, его независимая экспертная разметка, экспертный лингвистический анализ полученных данных для выделения маркеров эмоций, их валидация инструментами корпусной лингвистики и - при условии подтверждения значимости их показателей в корпусах эмоций - валидация в работе прототипа классификатора. Автор исследует возможность использования невербальных маркеров эмоций в качестве параметров классификации: в результате лингвистического анализа обнаруживаются два потенциальных параметра - фиксация лексем заглавными буквами и цифровой формат числительных. Двойная валидация выявленных маркеров позволяет определить, какой из данных маркеров вызывает положительную динамику точности классификации. Маркер графической передачи числительных приводит к увеличению общей точности работы алгоритма сентимент-анализа на 2 %, а также к приросту точности классификации для классов Интерес на 7 %, классов Удивление и Радость - на 3 %. Отмечается, что тип невербальных маркеров по своей эффективности для сентимент-анализа текстов незначительно отстает от лексико-семантических и пунктуационных вербальных маркеров и находится на одном уровне с синтаксическими вербальными маркерами. Результаты исследования указывают на необходимость рассмотрения данного типа маркеров наряду с вербальными маркерами эмоций и более подробного изучения конкретных маркеров для их использования в качестве параметров классификатора. This article describes the initial stages of the project aiming to design a classifier of Internet texts in Russian by emotional tonality. To create a sentiment analysis algorithm that attributes texts to one of the 8 basic emotions according to Lövheim’s cube model, it is necessary to do the following: carefully select the language material for the training sample; label its tonality with the assistance of an independent expert; carry out an expert linguistic analysis of the data in order to determine the emotion markers; validate the markers using corpus analysis tools; and, subject to their quantitative significance in the emotion corpora, validate them in the work of the prototype classifier. The author examined the possibility of using non-verbal emotion markers as classification parameters. The linguistic analysis revealed two potential parameters: lexemes written in capital letters and numbers written in figures. Double validation of the markers identified allows us to determine which of them improves the accuracy of classification. The marker of writing numbers in figures leads to a 2 % increase in the overall accuracy of the sentiment analysis algorithm, as well as to a 7 % increase in the classification accuracy for the basic emotion of interest/excitement, and a 3 % increase for the basic emotions of surprise/startle and enjoyment/joy. It is noted that non-verbal markers are slightly less effective for the sentiment analysis of texts than lexical, semantic or punctuation markers, but are as much effective as syntactic markers. The results indicate the need to consider this type of markers along with verbal markers of emotions and explore in more detail concrete non-verbal markers as potential classifier parameters.

Ссылки на полный текст

Издание

Журнал: Вестник Северного (Арктического) федерального университета. Серия: Гуманитарные и социальные науки

Выпуск журнала: 4

Номера страниц: 97-107

ISSN журнала: 22276564

Место издания: Архангельск

Издатель: Северный (Арктический) федеральный университет им. М.В. Ломоносова

Персоны

Вхождение в базы данных