Automated Recognition of Paralinguistic Signals in Spoken Dialogue Systems: Ways of Improvement : научное издание

Описание

Перевод названия: Автоматическое распознавание паралингвистических характеристик говорящего: способы улучшения качества классификации

Тип публикации: статья из журнала

Год издания: 2015

Ключевые слова: multimodal approach, мультимодальность, recognition of paralinguistic signals, machine learning algorithms, speaker-adaptive emotion recognition, распознавание паралингвистических характеристик, алгоритмы машинного обучения, адаптивная процедура распознавания эмоций

Аннотация: The ability of arti?cial systems to recognize paralinguistic signals, such as emotions, depression, or openness, is useful in various applications. However, the performance of such recognizers is not yet perfect. In this study we consider several directions which can signi?cantly improve the performance of such systems. Firstly, weПоказать полностьюproposebuilding speaker-orgender-speci?c emotion models. Thus, an emotion recognition (ER) procedure is followed by a gender-or speaker-identi?er. Speaker-or gender-speci?c information is used either for including into the feature vector directly, or for creating separate emotion recognition models for each gender or speaker. Secondly, a feature selection procedure is an important part of any classi?cation problem; therefore, we proposed using a feature selection technique, based on a genetic algorithm or an information gain approach. Both methods result in higher performance than baseline methods without any feature selection algorithms. Finally, we suggest analysing not only audio signals, but also combined audio-visual cues. The early fusion method (or feature-based fusion) has been used in our investigations to combine di?erent modalities into a multimodal approach. The results obtained show that the multimodal approach outperforms single modalities on the considered corpora. The suggested methodshavebeenevaluated onanumberof emotionaldatabasesofthreelanguages(English, German and Japanese), in both acted and non-acted settings. The results of numerical experiments are also shown in the study. Способность искусственных систем распознавать паралингвистические характеристики говорящего, такие как эмоциональное состояние, наличие и степень депрессии, открытость человека, является полезной для широкого круга приложений. Однако производительность таких систем далека от идеальных значений. В этой статье мы предлагаем подходы, применение которых позволяет существенно улучшить производительность систем распознавания. В работе описывается метод построения адаптивных эмоциональных моделей, позволяющих использовать характеристики конкретного человека для построения точных моделей. В статье представлены алгоритмы выявления наиболее значимых характеристик речевых сигналов, позволяющие одновременно максимизировать точность решения поставленной задачи и минимизировать количество используемых характеристик сигнала. Наконец, предлагается использовать комбинированные аудио визуальные сигналы в качестве входов для алгоритма машинного обучения. Указанные подходы были реализованы и проверены на 9 эмоциональных речевых корпусах. Результаты проведенных экспериментовпозволяютутверждать,чтопредложенныев статьеподходыулучшают качество решения поставленных задач с точки зрения выбранных критериев.

Ссылки на полный текст

Издание

Журнал: Журнал Сибирского федерального университета. Серия: Математика и физика

Выпуск журнала: Т. 8, 2

Номера страниц: 208-216

ISSN журнала: 19971397

Место издания: Красноярск

Издатель: Федеральное государственное автономное образовательное учреждение высшего образования Сибирский федеральный университет

Персоны

  • Sidorov Maxim (Institute of Communications Engineering Ulm University)
  • Schmitt Alexander (Institute of Communications Engineering Ulm University)
  • Semenkin Eugene S. (Institute of Computer Science and Telecommunications Siberian State Aerospace University)

Вхождение в базы данных