Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63894
Title: Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна
Authors: Бекарев, С. С.
Keywords: материалы конференций;синтез речи;автоматическое распознавание речи;двухэтапный пайплайн;акустическая модели;мел-спектрограммы
Issue Date: 2026
Publisher: БГУИР
Citation: Бекарев, С. С. Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна / С. С. Бекарев // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 247–248.
Abstract: В работе представлена модульная архитектура синтеза речи, комбинирующая методы автоматического распознавания речи для получения точного выравнивания текста и аудио с non-autoregressive генерацией акустических признаков. Для преодоления проблем нестабильности attention-механизмов, характерных для seq2seq моделей семейства Tacotron, разработан двухэтапный пайплайн: на первом этапе обучается CTC-based модель распознавания речи, после чего алгоритм Витерби применяется для извлечения строгого монотонного alignment между символами текста русского языка и кадрами мел-спектрограммы. Полученные временные метки используются для обучения отдельного DurationPredictor (предиктор длительности), предсказывающего количество фреймов для каждого входного символа. Акустическая модель на основе расширенных эмбеддингов генерирует логарифмированные мел-спектрограммы (80 мел-фильтров).
URI: https://libeldoc.bsuir.by/handle/123456789/63894
Appears in Collections:Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)

Files in This Item:
File Description SizeFormat 
Bekarev_Arhitektura.pdf415.21 kBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.