Использование текстов жанра «интернет-откровение» в контексте решения задач сентимент-анализа : научное издание

Описание

Перевод названия: Texts of “Internet Confessions” as a Source for Training Data Set for the Research on the Sentiment-Analysis Field

Тип публикации: статья из журнала

Год издания: 2019

Ключевые слова: сентимент-анализ, обучающая выборка, интернет-тексты, жанр «интернет-откровение», социальные сети, нарратив, sentiment analysis, Training data set, internet texts, Internet confession genre, social networks, narratives

Аннотация: Статья посвящена анализу валидности текстов жанра «интернет-откровение» в качестве источника данных для обучающей выборки в целях тренировки модели компьютерного классификатора интернет-текстов на русском языке по критерию их эмоциональной тональности. Целью осуществляемого проекта является создание программы, способной автоматичесПоказать полностьюки оценивать тексты как вербализующие одну из восьми эмоций (модель Г. Левхейма) или как эмоционально нейтральные. Для достижения цели возникла необходимость в формировании обучающей выборки - коллекции интернет-текстов, где каждому из них уже приписана определенная эмоция или оценка «нейтрально». В качестве источника подобных данных выбраны тексты из публичной группы «Подслушано» в социальной сети «ВКонтакте». Всем текстам паблика присущи специфические черты, позволяющие рассматривать их совокупность как отдельный нарративный жанр интернет-откровения, свойства которого описаны с применением метода нарративной семиотики А. Ж. Греймаса. Выявлены качественные и формальные преимущества текстов данного жанра в качестве источника данных для сентимент-анализа. В качестве ограничения, накладываемого текстами жанра «интернет-откровение» на выборку, выступает их нарративный характер, что исключает из коллекции данных иные типы дискурсивных единиц, например, аргументативы или дескриптивы. The article aims to analyze the validity of Internet confession texts used as a source of training data set for designing computer classifier of Internet texts in Russian according to their emotional tonality. Thus, the classifier, backed by Lövheim’s emotional cube model, is expected to detect eight classes of emotions represented in the text or to assign the text to the emotionally neutral class. The first and one of the most important stages of the classifier creation is the training data set selection. The training data set in Machine Learning is the actual dataset used to train the model for performing various actions. The internet text genres that are traditionally used in sentiment analysis to train two or three tonalities classifiers are twits, films and market reviews, blogs and financial reports. The novelty of our project consists in designing multiclass classifier that requires a new non-trivial training data. As such, we have chosen the texts from public group Overheard in Russian social network VKontakte. As all texts show similarities, we united them under the genre name “Internet confession”. To feature the genre, we applied the method of narrative semiotics describing six positions forming the deep narrative structure of “Internet confession”: Addresser - a person aware of her/his separateness from the society; Addressee - society / public opinion; Subject - a narrator describing his / her emotional state; Object - the person’s self-image; Helper - the person’s frankness; Adversary - the person’s shame. The above mentioned genre features determine its primary advantage - a qualitative one - to be especially focused on the emotionality while more traditional sources of textual data are based on such categories as expressivity (twits) or axiological estimations (all sorts of reviews). The structural analysis of texts under discussion has also demonstrated several advantages due to the technological basis of the Overheard project: the text hashtagging prevents the researcher from submitting the whole collection to the crowdsourcing assessment; its size is optimal for assessment by experts; despite their hyperbolized emotionality, the texts of Internet confession genre share the stylistic features typical of different types of personal internet discourse. However, the narrative character of all Internet confession texts implies some restrictions in their use within sentiment analysis project.

Ссылки на полный текст

Издание

Журнал: Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация

Выпуск журнала: Т. 17, 3

Номера страниц: 71-82

ISSN журнала: 18187935

Место издания: Новосибирск

Издатель: Федеральное государственное автономное образовательное учреждение высшего образования "Новосибирский национальный исследовательский государственный университет"

Персоны

Вхождение в базы данных