| Title: | Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна |
| Authors: | Бекарев, С. С. |
| Keywords: | материалы конференций;синтез речи;автоматическое распознавание речи;двухэтапный пайплайн;акустическая модели;мел-спектрограммы |
| Issue Date: | 2026 |
| Publisher: | БГУИР |
| Citation: | Бекарев, С. С. Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна / С. С. Бекарев // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 247–248. |
| Abstract: | В работе представлена модульная архитектура синтеза речи, комбинирующая методы автоматического распознавания речи для получения точного выравнивания текста и аудио с non-autoregressive генерацией акустических признаков. Для преодоления проблем нестабильности attention-механизмов, характерных для seq2seq моделей семейства Tacotron, разработан двухэтапный пайплайн: на первом этапе обучается CTC-based модель распознавания речи, после чего алгоритм Витерби применяется для извлечения строгого монотонного alignment между символами текста русского языка и кадрами мел-спектрограммы. Полученные временные метки используются для обучения отдельного DurationPredictor (предиктор длительности), предсказывающего количество фреймов для каждого входного символа. Акустическая модель на основе расширенных эмбеддингов генерирует логарифмированные мел-спектрограммы (80 мел-фильтров). |
| URI: | https://libeldoc.bsuir.by/handle/123456789/63894 |
| Appears in Collections: | Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)
|