Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/44169
Full metadata record
DC FieldValueLanguage
dc.contributor.authorКукареко, А. П.-
dc.date.accessioned2021-06-15T13:15:13Z-
dc.date.available2021-06-15T13:15:13Z-
dc.date.issued2021-
dc.identifier.citationКукареко, А. П. Построение и оценка эффективности нейросетевых моделей клонирования голоса / Кукареко А. П. // Компьютерные системы и сети : сборник статей 57-ой научной конференции аспирантов, магистрантов и студентов, Минск, 19-23 апреля 2021 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2021. – С. 75–78.ru_RU
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/44169-
dc.description.abstractВ работе рассматривается управляемый метод клонирования голоса, позволяющий контролировать, качественно и количественно оценивать точность различных параметров синтезированной речи. Демонстрируется возможность использования генеративной модели для клонирования таких стилистических характеристик голоса, как высота тона, темп и тембр речи, просодия, фонетические особенности русской речи. Производительность метода тестируется слоями глубокой свертки для моделирования кодеров, декодеров и вокодера на базе WaveNet. Эффективность построенной в результате модели сравнима с современными системами преобразования текста в речь (TTS) и конверсии голоса (VC) при использовании образцов речи без текстового сопровождения длиной 1–5 минут.ru_RU
dc.language.isoruru_RU
dc.publisherБГУИРru_RU
dc.subjectматериалы конференцийru_RU
dc.subjectклонирование голосаru_RU
dc.subjectнейронные сетиru_RU
dc.subjectголосовые сигналыru_RU
dc.subjectvoice cloningru_RU
dc.subjectneural networkru_RU
dc.subjectvoice signalsru_RU
dc.titleПостроение и оценка эффективности нейросетевых моделей клонирования голосаru_RU
dc.title.alternativeNeural network models for voice cloning: building and efficiency estimationru_RU
dc.typeСтатьяru_RU
local.description.annotationWe present a controlled method of voice cloning, which makes it possible to control, evaluate the accuracy of various parameters of synthesized speech in quantity and quality. The possibility of using a generative model for cloning such stylistic characteristics of a voice as pitch, tempo and timbre of speech, prosody, phonetic features of Russian speech is demonstrated. The performance of the method is tested by deep convolution layers to simulate WaveNet-based encoders, decoders, and vocoder. The efficiency of the resulting model is comparable to modern text-to-speech (TTS) and voice conversion (VC) systems when using 1–5 minutes speech samples without text supervision.-
Appears in Collections:Компьютерные системы и сети : материалы 57-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2021)

Files in This Item:
File Description SizeFormat 
Kukareko_Postroyeniye.pdf492.32 kBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.