Title: | Реализация и выбор параметров при использовании алгоритма выравнивания временных масштабов для систем конверсии голоса |
Other Titles: | Implementation and parameter selection of dynamic time warping algorithm for voice conversion |
Authors: | Тхай Чунг Киен |
Keywords: | доклады БГУИР;алгоритм выравнивания временных масштабов (DTW);конверсия голоса (VC);линейные спектральные частоты;кепстральный коэффициент |
Issue Date: | 2008 |
Publisher: | БГУИР |
Citation: | Тхай Чунг Киен. Реализация и выбор параметров при использовании алгоритма выравнивания временных масштабов для систем конверсии голоса = Implementation and parameter selection of dynamic time warping algorithm for voice conversion / Тхай Чунг Киен // Доклады БГУИР. – 2008. – № 3 (33). – С. 96–102. |
Abstract: | Алгоритм выравнивания временных масштабов (Dynamic Time Warping – DTW) широко применяется в распознавании речи. Целью DTW является нахождение функции выравнивания, которая минимизирует общее расстояние между соответствующими фреймами речевых сигналов. В статье рассматриваются алгоритм DTW и его применение в области конверсии голоса, где алгоритм DTW используется для совмещения речевых фреймов двух различных дикторов. Данный алгоритм служит предварительной обработкой и используется на этапе обучения, оказывая прямое влияние на точность функции конверсии. В данной работе предлагается способ выбора параметров тракта для нахождения совмещения. Алгоритм реализован как с использованием коэффициентов линейной спектральной частоты (Line spectral frequencies — LSF), так и с использованием кепстральных коэффициентов. Показано, что кепстральные коэффициенты дают наилучший результат, который исключает получение вырожденных матриц и упрощает этап обучения, а так же существенно повышает качество конверсии речи. |
Alternative abstract: | The Dynamic Time Warping (DTW) algorithm is widely used in speech recognition. The purpose of DTW is to produce a warping function that minimizes the total distance between the respective
points (frames) of the speech signals. In this paper DTW algorithm is implemented and discussed in
voice conversion area. The DTW is used to align speech frames of two sentences of two speakers. The
DTW is pre-process of training phase, which will affect directly accuracy of conversion function. Selecting parameters for finding alignment path are given, in those line spectral frequencies (LSFs), cepstral coefficients are used for algorithm implementation. We see that, cepstral coefficients give the
best result, which avoid singular matrix and over-fitting of training phase. The result of voice conversion system is significantly improved. |
URI: | https://libeldoc.bsuir.by/handle/123456789/31592 |
Appears in Collections: | №3 (33)
|