Неавторегрессионная модульная система синтеза речи с явным моделированием длительности на базе СТС-выравнивания

Бекарев, С. С.; Калугина, М. А.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63500

Title:	Неавторегрессионная модульная система синтеза речи с явным моделированием длительности на базе СТС-выравнивания
Other Titles:	Non-autoregressive modular speech synthesis system with explicit duration modeling based on CTC equalization
Authors:	Бекарев, С. С. Калугина, М. А.
Keywords:	материалы конференций;Big Data;информационные системы;мел-спектрограммы;графемы;акустические модели
Issue Date:	2026
Publisher:	БГУИР
Citation:	Бекарев, С. С. Неавторегрессионная модульная система синтеза речи с явным моделированием длительности на базе СТС-выравнивания = Non-autoregressive modular speech synthesis system with explicit duration modeling based on CTC equalization / С. С. Бекарев, М. А. Калугина // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 297–302.
Abstract:	В статье рассматриваются методы явного выравнивания текстовых и акустических последовательностей для стабильного синтеза речи на материале русского языка. Проведено построение выравнивания текста относительно акустических признаков методом на основе CTC-loss и алгоритма Витерби. Для акустического моделирования использована неавторегрессионная архитектура с дилатационными свертками и энкодер-декодерной структурой. Оценка качества выполнена по группам показателей: точность предсказания длительности фонем (RMSE), качество реконструкции мел-спектрограмм (MSE) и субъективная разборчивость синтезированной речи (алгоритм Гриффина-Лима). Установлено, что предлагаемый трехэтапный пайплайн (обучение выравнивания, предсказание длительности графем, затем генерация мел-спектрограммы) обеспечивает устойчивое обучение и гарантированную монотонность генерации на графемном уровне с явной маркировкой ударения. Показана возможность обхода без фонемного преобразования при использовании расширенного словаря графем с ударными/безударными вариантами.
Alternative abstract:	This article examines methods for explicitly aligning text and acoustic sequences for stable speech synthesis using Russian language material. Emphasis is placed on overcoming the instability of attention mechanisms in classical seq2seq models by decomposing the problem into alignment, duration prediction, and spectrogram generation modules. A text alignment with respect to acoustic features is constructed using a method based on CTC- loss and the Viterbi algorithm. A non-autoregressive architecture with dilated convolutions and an encoder-decoder structure is used for acoustic modeling. Quality assessment is performed using a group of metrics: phoneme duration prediction accuracy (RMSE), mel spectrogram reconstruction quality (MSE), and subjective intelligibility of synthesized speech (Griffin-Lim algorithm). It was established that the proposed two-stage pipeline (grapheme duration prediction followed by mel-spectrogram generation) ensures robust learning and guaranteed monotonicity of generation at the grapheme level with explicit stress marking. The feasibility of traversal without phoneme transformation is demonstrated using an extended grapheme dictionary with stressed/unstressed variants.
URI:	https://libeldoc.bsuir.by/handle/123456789/63500
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:

File	Description	Size	Format
Bekarev_Neavtoregressionnaya.pdf		2.54 MB	Adobe PDF	View/Open

Show full item record Google Scholar