Texts of Different Emotional Classes and Their Topic Modeling

Описание

Тип публикации: статья из журнала

Год издания: 2024

Идентификатор DOI: 10.15688/jvolsu2.2024.5.5

Ключевые слова: emotions, denotative situation, topic modeling, social network texts, russian language, эмоции, денотативная ситуация, тематическое моделирование, тексты в социальных сетях, русский язык

Аннотация: The article is devoted to studying verbalization specifics of various emotional states in the texts in the Russian language with the purpose to confirm or refute the hypothesis that texts of different emotional classes reflect the denotative situation not identically, which is reflected in thematic specifics and lexical content. ThПоказать полностьюe research material consisted of eight corpus texts in the Russian language, which were extracted from the public pages of the social network VKontakte. The texts were selected according to emotional hashtags that corresponded to eight basic emotions, according to H. Lцvheim’s model: anger, surprise, shame, enjoyment, disgust, distress, excitement, fear. The correspondence of emotion and hashtag was established in a preliminary psycholinguistic experiment. While analyzing the text collection, we used the method of computer thematic modeling to identify statistically non-random groups of words (topics). We applied the BERTopic neural network model to the collected data. As a result of the analysis, it was found that texts of 8 emotional classes contain an uneven number of topics, despite the fact that their number does not correlate directly with the amount of data: with a relatively small amount of data, there may be many topics, but in a voluminous corpus - few. The sets of words (tokens) that make up each non-random group (topic) differ in each subcorpora, reflecting the specifics of the denotative situation, which is formed under the influence of the emotional state of the speaker. The idea of diverse thematic “granularity” of texts of different emotional classes is theoretically justified. Статья посвящена проблеме вербализации различных эмоциональных состояний в текстах на русском языке. Цель работы - подтвердить или опровергнуть гипотезу о том, что тексты разных эмоциональных классов неодинаково отражают денотативную ситуацию, имеют тематическую специфику и не идентичное лексическое наполнение. Материал исследования составили восемь подкорпусов текстов на русском языке, которые были извлечены из пабликов социальной сети ВКонтакте. Тексты отобраны по эмоциональным хэштегам, которые соответствуют восьми базовым эмоциям, согласно модели Г. Лёвхейма: злость, удивление, стыд, радость, отвращение, печаль, воодушевление, унижение. Соответствие эмоции и хэштега было установлено в предварительном психолингвистическом эксперименте. Для анализа текстовой коллекции использовалась техника выделения статистически неслучайных групп слов (тем) при помощи компьютерного алгоритма - метод компьютерного тематического моделирования. К собранным данным применена нейросетевая модель BERTopic. В результате анализа было выявлено, что тексты разных эмоциональных классов содержат неодинаковое количество тем, при том, что их число не коррелирует непосредственно с объемом данных: при сравнительно небольшом объеме данных может быть много тем, а в объемном корпусе - мало. Наборы слов (токенов), составивших каждую неслучайную группу (тему), отличаются по подкорпусам, отражая специфику денотативной ситуации, формирующуюся под влиянием эмоционального состояния говорящего. Теоретическое обоснование получает идея о специфической тематической «гранулярности», характерной для текстов разных эмоциональных классов.

Ссылки на полный текст

Издание

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание

Выпуск журнала: Т. 23, 5

Номера страниц: 60-71

ISSN журнала: 19989911

Место издания: Волгоград

Издатель: Волгоградский государственный университет

Персоны

  • Kolmogorova Anastasia (HSE University)
  • Sun Qiuhua (Heilongjiang University)

Вхождение в базы данных