Реализация и выбор параметров при использовании алгоритма выравнивания временных масштабов для систем конверсии голоса

Тхай Чунг Киен

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/31592

Title:	Реализация и выбор параметров при использовании алгоритма выравнивания временных масштабов для систем конверсии голоса
Other Titles:	Implementation and parameter selection of dynamic time warping algorithm for voice conversion
Authors:	Тхай Чунг Киен
Keywords:	доклады БГУИР;алгоритм выравнивания временных масштабов (DTW);конверсия голоса (VC);линейные спектральные частоты;кепстральный коэффициент
Issue Date:	2008
Publisher:	БГУИР
Citation:	Тхай Чунг Киен. Реализация и выбор параметров при использовании алгоритма выравнивания временных масштабов для систем конверсии голоса = Implementation and parameter selection of dynamic time warping algorithm for voice conversion / Тхай Чунг Киен // Доклады БГУИР. – 2008. – № 3 (33). – С. 96–102.
Abstract:	Алгоритм выравнивания временных масштабов (Dynamic Time Warping – DTW) широко применяется в распознавании речи. Целью DTW является нахождение функции выравнивания, которая минимизирует общее расстояние между соответствующими фреймами речевых сигналов. В статье рассматриваются алгоритм DTW и его применение в области конверсии голоса, где алгоритм DTW используется для совмещения речевых фреймов двух различных дикторов. Данный алгоритм служит предварительной обработкой и используется на этапе обучения, оказывая прямое влияние на точность функции конверсии. В данной работе предлагается способ выбора параметров тракта для нахождения совмещения. Алгоритм реализован как с использованием коэффициентов линейной спектральной частоты (Line spectral frequencies — LSF), так и с использованием кепстральных коэффициентов. Показано, что кепстральные коэффициенты дают наилучший результат, который исключает получение вырожденных матриц и упрощает этап обучения, а так же существенно повышает качество конверсии речи.
Alternative abstract:	The Dynamic Time Warping (DTW) algorithm is widely used in speech recognition. The purpose of DTW is to produce a warping function that minimizes the total distance between the respective points (frames) of the speech signals. In this paper DTW algorithm is implemented and discussed in voice conversion area. The DTW is used to align speech frames of two sentences of two speakers. The DTW is pre-process of training phase, which will affect directly accuracy of conversion function. Selecting parameters for finding alignment path are given, in those line spectral frequencies (LSFs), cepstral coefficients are used for algorithm implementation. We see that, cepstral coefficients give the best result, which avoid singular matrix and over-fitting of training phase. The result of voice conversion system is significantly improved.
URI:	https://libeldoc.bsuir.by/handle/123456789/31592
Appears in Collections:	№3 (33)

Files in This Item:

File	Description	Size	Format
Thai_Implementation.PDF		382.73 kB	Adobe PDF	View/Open

Show full item record Google Scholar