DC Field | Value | Language |
dc.contributor.author | Вашкевич, М. И. | - |
dc.contributor.author | Лихачёв, Д. С. | - |
dc.contributor.author | Азаров, И. С. | - |
dc.date.accessioned | 2022-03-10T11:29:28Z | - |
dc.date.available | 2022-03-10T11:29:28Z | - |
dc.date.issued | 2022 | - |
dc.identifier.citation | Вашкевич, М. И. Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах / Вашкевич М. И., Лихачёв Д. С., Азаров И. С. // Доклады БГУИР. – 2022. – Т. 20, № 1. – С. 73–82. – DOI : http://dx.doi.org/10.35596/1729-7648-2022-20-1-73-82. | ru_RU |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/46764 | - |
dc.description.abstract | Описан подход к построению системы анализа и классификации голосового сигнала
на основе пертурбационных параметров и кепстрального представления. Рассмотрены два варианта
кепстрального представления голосового сигнала: при помощи мел-частотных кепстральных
коэффициентов (МЧКК) и при помощи барк-частотных кепстральных коэффициентов (БЧКК). В работе
использовался общепринятый подход к вычислению МЧКК на основе частотно-временного анализа
методом дискретного преобразования Фурье (ДПФ) с объединением энергии в субполосах. Данный
метод аппроксимирует частотное разрешение слуха человека, но имеет фиксированное временное
разрешение. В качестве альтернативы предложен вариант кепстрального представления на основе
БЧКК. При расчете БЧКК использовался неравнополосный ДПФ-модулированный банк фильтров,
аппроксимирующий частотную и временную разрешающую способность слуха. Целью работы
ставилось сравнение эффективности применения признаков на основе МЧКК и БЧКК для построения
систем анализа и классификации голосового сигнала. Результаты эксперимента показали, что в случае
использования акустических признаков на основе МЧКК можно получить систему классификации
голоса со средней полнотой классификации 80,6 %, а в случае использовании признаков на основе БЧКК
этот показатель равен 83,7 %. При дополнении набора МЧКК признаков пертурбационными
параметрами голоса средняя полнота классификации повысилась до 94,1 %, при аналогичном
дополнении набора БЧКК признаков средняя полнота классификации увеличилась до 96,7 %. | ru_RU |
dc.language.iso | ru | ru_RU |
dc.publisher | БГУИР | ru_RU |
dc.subject | доклады БГУИР | ru_RU |
dc.subject | голосовой сигнал | ru_RU |
dc.subject | МЧКК | ru_RU |
dc.subject | БЧКК | ru_RU |
dc.subject | патология голоса | ru_RU |
dc.subject | voice signal | ru_RU |
dc.subject | MFCC | ru_RU |
dc.subject | BFCC | ru_RU |
dc.subject | vocal pathology | ru_RU |
dc.title | Система анализа и классификации голосового сигнала на основе пертрубационных параметров и кепстрального представления в психоакустических шкалах | ru_RU |
dc.title.alternative | Voice Analysis and Classification System Based on Perturbation Parameters and Cepstral Presentation in Psychoacoustic Scales | ru_RU |
dc.type | Статья | ru_RU |
local.description.annotation | The paper describes an approach to design a system for analyzing and classification of a voice signal
based on perturbation parameters and cepstral representation. Two variants of the cepstral representation of the
voice signal are considered: based on mel-frequency cepstral coefficients (MFCC) and based on bark-frequency
cepstral coefficients (BFCC). The work used a generally accepted approach to calculating the MFCC based on
the time-frequency analysis by the method of discrete Fourier transform (DFT) with summation of energy in
subbands. This method approximates the frequency resolution of human hearing, but has a fixed temporal
resolution. As an alternative, a variant of the cepstral representation based on the BFCC has been proposed.
When calculating the BFCC, a warped DFT-modulated filter bank was used, which approximates the frequency
and temporal resolution of hearing. The aim of the work was to compare the effectiveness of the use of features
based on the MFCC and BFCC for the designing systems for the analysis and classification of the voice signal.
The results of the experiment showed that in the case when using acoustic features based on the MFCC, it is
possible to obtain a voice classification system with an average recall of 80.6 %, and in the case when using
features based on the BFCC, this metric is 83.7 %. With the addition of the set of MFCC features with
perturbation parameters of the voice, the average recall of the classification increased to 94.1 %, with a similar
addition to the set of BFCC features, the average recall of the classification increased up to 96.7 %. | - |
Appears in Collections: | № 20(1)
|