Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/56422
Title: Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков
Other Titles: Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features
Authors: Краснопрошин, Д. В.
Вашкевич, М. И.
Keywords: доклады БГУИР;голосовые сигналы;машинное обучение;метод опорных векторов;мел-кепстральные коэффициенты
Issue Date: 2024
Publisher: БГУИР
Citation: Краснопрошин, Д. В. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков = Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features / Д. В. Краснопрошин, М. И. Вашкевич // Доклады БГУИР. – 2024. – Т. 22, № 3. – С. 93–100.
Abstract: Исследована задача распознавания эмоций в речевом сигнале с использованием мел-частот- ных кепстральных коэффициентов при помощи классификатора на основе метода опорных векторов. При проведении экспериментов применялся набор данных RAVDESS. Предложена модель, которая использует 306-компонентный вектор надсегментных признаков в качестве входных данных для классификатора на основе метода опорных векторов. Оценка качества модели проводилась с помощью невзвешенного среднего значения полноты (UAR). Рассмотрено применение в классификаторе на основе метода опорных векторов в качестве ядра линейной, полиномиальной и радиальной базисной функций. Исследовано использование разных размеров фрейма анализа сигнала (от 23 до 341 мс) на этапе извлечения мел-частот- ных кепстральных коэффициентов. Результаты исследований выявили значительную точность полученной модели (UAR = 48 %). Предлагаемый подход демонстрирует потенциал для таких приложений, как голосовые помощники, виртуальные агенты и диагностика психического здоровья.
Alternative abstract: The problem of recognizing emotions in a speech signal using mel-frequency cepstral coefficients using a classifier based on the support vector machine has been studied. The RAVDESS data set was used in the experiments. A model is proposed that uses a 306-component suprasegmental feature vector as input to a support vector machine classifier. Model quality was assessed using unweighted average recall (UAR). The use of linear, polynomial and radial basis functions as a kernel in a classifier based on the support vector machine is considered. The use of different signal analysis frame sizes (from 23 to 341 ms) at the stage of extracting mel-frequency cepstral coefficients was investigated. The research results revealed significant accuracy of the resulting model (UAR = 48 %). The proposed approach shows potential for applications such as voice assistants, virtual agents, and mental health diagnostics.
URI: https://libeldoc.bsuir.by/handle/123456789/56422
DOI: http://dx.doi.org/10.35596/1729-7648-2024-22-3-93-100
Appears in Collections:Том 22, № 3

Files in This Item:
File Description SizeFormat 
Krasnoproshin_Metod.pdf6.19 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.