Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна

Бекарев, С. С.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63894

Title:	Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна
Authors:	Бекарев, С. С.
Keywords:	материалы конференций;синтез речи;автоматическое распознавание речи;двухэтапный пайплайн;акустическая модели;мел-спектрограммы
Issue Date:	2026
Publisher:	БГУИР
Citation:	Бекарев, С. С. Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна / С. С. Бекарев // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 247–248.
Abstract:	В работе представлена модульная архитектура синтеза речи, комбинирующая методы автоматического распознавания речи для получения точного выравнивания текста и аудио с non-autoregressive генерацией акустических признаков. Для преодоления проблем нестабильности attention-механизмов, характерных для seq2seq моделей семейства Tacotron, разработан двухэтапный пайплайн: на первом этапе обучается CTC-based модель распознавания речи, после чего алгоритм Витерби применяется для извлечения строгого монотонного alignment между символами текста русского языка и кадрами мел-спектрограммы. Полученные временные метки используются для обучения отдельного DurationPredictor (предиктор длительности), предсказывающего количество фреймов для каждого входного символа. Акустическая модель на основе расширенных эмбеддингов генерирует логарифмированные мел-спектрограммы (80 мел-фильтров).
URI:	https://libeldoc.bsuir.by/handle/123456789/63894
Appears in Collections:	Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)

Files in This Item:

File	Description	Size	Format
Bekarev_Arhitektura.pdf		415.21 kB	Adobe PDF	View/Open

Show full item record Google Scholar