ЛИНГВИСТИЧЕСКИЕ ПРИНЦИПЫ И МЕТОДЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕНТИМЕНТ-АНАЛИЗА РУССКОЯЗЫЧНЫХ ТЕКСТОВ : научное издание

Описание

Перевод названия: LINGUISTIC PRINCIPLES AND COMPUTATIONAL LINGUISTICS METHODS FOR THE PURPOSES OF SENTIMENT ANALYSIS OF RUSSIAN TEXTS

Тип публикации: статья из журнала

Год издания: 2018

Идентификатор DOI: 10.29025/2079-6021-2018-1(29)-139-148

Ключевые слова: сентимент-анализ, художественный текст, машинное обучение по прецедентам, лингвистическая эмотиология, компьютерная лингвистика, классификация эмоций Г. Левхейма, дискриминантные черты текстов, sentiment analysis, fiction text, supervised machine learning, linguistic emotiology, computational linguistics, emotion classification of H. Lövheim, text classes features

Аннотация: В статье представлены промежуточные результаты проекта по созданию ранжированного классификатора русскоязычных текстов по критерию их эмоциональной тональности. Цель статьи - обсуждение лингвистических принципов и методов компьютерной лингвистики, положенных в основу разработки. Методология. Исследование носит междисциплинарный харПоказать полностьюактер и выстроено в рамках, с одной стороны, лингвистики эмоций, а с другой - технологии сентимент-анализа текстов. Базисным методом для разработки компьютерного классификатора послужил такой алгоритм машинного обучения по прецедентам, как Наивный Байесовский классификатор. Для решения задачи выявления дискриминантных черт восьми классов текстов, каждый из которых вербализует в качестве ведущей одну из восьми эмоций, согласно классификации Г. Левхейма, использовалась модель текста «мешок слов (Bag-of-words)», основанная на автоматическом выявлении статистической значимости лексических единиц для некоторого класса текстов, а также метод экспертного лингвистического анализа. Для составления размеченной коллекции текстов, послужившей затем в качестве основы для тренировочной выборки классификатора, был использован метод экспертного аннотирования посредством краудсорсинга. Результаты, обсуждаемые в публикации, заключаются в выделении дискриминантных черт (features) для дальнейшего использования их в различных алгоритмах машинного обучения в целях автоматической атрибуции текстов к одному из 9 классов: тексты, вербализующие 1) интерес / возбуждение, 2) удовольствие / радость, 3) удивление, 4) страдание / тоска, 5) страх / ужас, 6) стыд /унижение, 7) брезгливость / отвращение, 8) злость / гнев либо тексты, являющиеся «нейтральными». Подчеркивается, что выявленные маркеры эмоций включают в себя как единицы эмотивной лексики, так и лексику эмоций, а также ситуативно эмотивную лексику и дескрипторы внешних проявлений эмоциональных состояний. В заключении делаются выводы о том, что разработка ранжированного классификатора русскоязычных текстов по их эмоциональной тональности является перспективным направлением исследований, которое позволяет по-новому взглянуть на некоторые методологические вопросы теоретической лингвистики, проверив их в практике прикладных исследований. The article focuses on the current results of research project aiming at the design of Russian text classifier according to the criterion of text’s emotional tonality. In this paper we discuss linguistic principles and computational linguistics methods basic for our project. Materials and Methods: The research framework integrates theoretical basis of linguistic emotiology and technologies of sentiment analysis. The methodology is axed on Naïve Bayes classifier - the supervised machine-learning algorithm - as one of the most suitable approaches for handling lexical issues in tasks of Natural Language Processing. For text classes feature selection we apply a hybrid methodology using the “bag of words” model and manual linguistic annotation of the data implemented with help of crowdsourcing practice. Results: A feature set is proposed in order to use it for testing different machine learning algorithms aimed to attribute Russian texts to one of nine text classes, such as: texts articulating 1) interest / excitement, 2) enjoyment / joy, 3) surprise, 4) distress / anguish, 5) fear / terror, 6) shame / humiliation, 7) contempt / disgust, 8) anger / rage or 9) “neutral” texts. Eight emotion classes are borrowed from the biological emotion classification of H. Lövheim. The selected features include a rich inventory of linguistic items: emotional lexicon, emotion names, situation based emotional vocabulary and verbal descriptions of emotion behavior manifestations. Conclusions: the design of Russian text classifier according to the criterion of text’s emotional tonality gives the opportunity to rethink some tenets of theoretical linguistics testing them in the practice of applied research.

Ссылки на полный текст

Издание

Журнал: Актуальные проблемы филологии и педагогической лингвистики

Выпуск журнала: 1

Номера страниц: 139-148

ISSN журнала: 20796021

Место издания: Владикавказ

Издатель: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Северо-Осетинский государственный университет им. К.Л. Хетагурова

Персоны

Вхождение в базы данных