| DC Field | Value | Language |
| dc.contributor.author | Бекарев, С. С. | - |
| dc.coverage.spatial | Минск | en_US |
| dc.date.accessioned | 2026-06-01T09:30:55Z | - |
| dc.date.available | 2026-06-01T09:30:55Z | - |
| dc.date.issued | 2026 | - |
| dc.identifier.citation | Бекарев, С. С. Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна / С. С. Бекарев // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 247–248. | en_US |
| dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/63894 | - |
| dc.description.abstract | В работе представлена модульная архитектура синтеза речи, комбинирующая методы автоматического распознавания речи для получения точного выравнивания текста и аудио с non-autoregressive генерацией акустических признаков. Для преодоления проблем нестабильности attention-механизмов, характерных для seq2seq моделей семейства Tacotron, разработан двухэтапный пайплайн: на первом этапе обучается CTC-based модель распознавания речи, после чего алгоритм Витерби применяется для извлечения строгого монотонного alignment между символами текста русского языка и кадрами мел-спектрограммы. Полученные временные метки используются для обучения отдельного DurationPredictor (предиктор длительности), предсказывающего количество фреймов для каждого входного символа. Акустическая модель на основе расширенных эмбеддингов генерирует логарифмированные мел-спектрограммы (80 мел-фильтров). | en_US |
| dc.language.iso | ru | en_US |
| dc.publisher | БГУИР | en_US |
| dc.subject | материалы конференций | en_US |
| dc.subject | синтез речи | en_US |
| dc.subject | автоматическое распознавание речи | en_US |
| dc.subject | двухэтапный пайплайн | en_US |
| dc.subject | акустическая модели | en_US |
| dc.subject | мел-спектрограммы | en_US |
| dc.title | Архитектура non-autoregressive синтеза речи с CTC-выравниванием на основе двухэтапного пайплайна | en_US |
| dc.type | Article | en_US |
| Appears in Collections: | Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)
|