Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков

Краснопрошин, Д. В.; Вашкевич, М. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/56422

Title:	Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков
Other Titles:	Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features
Authors:	Краснопрошин, Д. В. Вашкевич, М. И.
Keywords:	доклады БГУИР;голосовые сигналы;машинное обучение;метод опорных векторов;мел-кепстральные коэффициенты
Issue Date:	2024
Publisher:	БГУИР
Citation:	Краснопрошин, Д. В. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков = Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features / Д. В. Краснопрошин, М. И. Вашкевич // Доклады БГУИР. – 2024. – Т. 22, № 3. – С. 93–100.
Abstract:	Исследована задача распознавания эмоций в речевом сигнале с использованием мел-частот- ных кепстральных коэффициентов при помощи классификатора на основе метода опорных векторов. При проведении экспериментов применялся набор данных RAVDESS. Предложена модель, которая использует 306-компонентный вектор надсегментных признаков в качестве входных данных для классификатора на основе метода опорных векторов. Оценка качества модели проводилась с помощью невзвешенного среднего значения полноты (UAR). Рассмотрено применение в классификаторе на основе метода опорных векторов в качестве ядра линейной, полиномиальной и радиальной базисной функций. Исследовано использование разных размеров фрейма анализа сигнала (от 23 до 341 мс) на этапе извлечения мел-частот- ных кепстральных коэффициентов. Результаты исследований выявили значительную точность полученной модели (UAR = 48 %). Предлагаемый подход демонстрирует потенциал для таких приложений, как голосовые помощники, виртуальные агенты и диагностика психического здоровья.
Alternative abstract:	The problem of recognizing emotions in a speech signal using mel-frequency cepstral coefficients using a classifier based on the support vector machine has been studied. The RAVDESS data set was used in the experiments. A model is proposed that uses a 306-component suprasegmental feature vector as input to a support vector machine classifier. Model quality was assessed using unweighted average recall (UAR). The use of linear, polynomial and radial basis functions as a kernel in a classifier based on the support vector machine is considered. The use of different signal analysis frame sizes (from 23 to 341 ms) at the stage of extracting mel-frequency cepstral coefficients was investigated. The research results revealed significant accuracy of the resulting model (UAR = 48 %). The proposed approach shows potential for applications such as voice assistants, virtual agents, and mental health diagnostics.
URI:	https://libeldoc.bsuir.by/handle/123456789/56422
DOI:	http://dx.doi.org/10.35596/1729-7648-2024-22-3-93-100
Appears in Collections:	Том 22, № 3

Files in This Item:

File	Description	Size	Format
Krasnoproshin_Metod.pdf		6.19 MB	Adobe PDF	View/Open

Show full item record Google Scholar