https://libeldoc.bsuir.by/handle/123456789/56422
Title: | Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков |
Other Titles: | Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features |
Authors: | Краснопрошин, Д. В. Вашкевич, М. И. |
Keywords: | доклады БГУИР;голосовые сигналы;машинное обучение;метод опорных векторов;мел-кепстральные коэффициенты |
Issue Date: | 2024 |
Publisher: | БГУИР |
Citation: | Краснопрошин, Д. В. Метод распознавания эмоций в речевом сигнале с использованием машины опорных векторов и надсегментных акустических признаков = Speech Emotion Recognition Method Based on Support Vector Machine and Suprasegmental Acoustic Features / Д. В. Краснопрошин, М. И. Вашкевич // Доклады БГУИР. – 2024. – Т. 22, № 3. – С. 93–100. |
Abstract: | Исследована задача распознавания эмоций в речевом сигнале с использованием мел-частот- ных кепстральных коэффициентов при помощи классификатора на основе метода опорных векторов. При проведении экспериментов применялся набор данных RAVDESS. Предложена модель, которая использует 306-компонентный вектор надсегментных признаков в качестве входных данных для классификатора на основе метода опорных векторов. Оценка качества модели проводилась с помощью невзвешенного среднего значения полноты (UAR). Рассмотрено применение в классификаторе на основе метода опорных векторов в качестве ядра линейной, полиномиальной и радиальной базисной функций. Исследовано использование разных размеров фрейма анализа сигнала (от 23 до 341 мс) на этапе извлечения мел-частот- ных кепстральных коэффициентов. Результаты исследований выявили значительную точность полученной модели (UAR = 48 %). Предлагаемый подход демонстрирует потенциал для таких приложений, как голосовые помощники, виртуальные агенты и диагностика психического здоровья. |
Alternative abstract: | The problem of recognizing emotions in a speech signal using mel-frequency cepstral coefficients using a classifier based on the support vector machine has been studied. The RAVDESS data set was used in the experiments. A model is proposed that uses a 306-component suprasegmental feature vector as input to a support vector machine classifier. Model quality was assessed using unweighted average recall (UAR). The use of linear, polynomial and radial basis functions as a kernel in a classifier based on the support vector machine is considered. The use of different signal analysis frame sizes (from 23 to 341 ms) at the stage of extracting mel-frequency cepstral coefficients was investigated. The research results revealed significant accuracy of the resulting model (UAR = 48 %). The proposed approach shows potential for applications such as voice assistants, virtual agents, and mental health diagnostics. |
URI: | https://libeldoc.bsuir.by/handle/123456789/56422 |
DOI: | http://dx.doi.org/10.35596/1729-7648-2024-22-3-93-100 |
Appears in Collections: | Том 22, № 3 |
File | Description | Size | Format | |
---|---|---|---|---|
Krasnoproshin_Metod.pdf | 6.19 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.