Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/57899
Title: Speaker recognition using neural networks
Other Titles: Распознавание диктора с использованием нейронных сетей
Authors: Lu Gangfan
Keywords: материалы конференций;recurrent neural network;speaker recognition;VoxCeleb
Issue Date: 2024
Publisher: БГУИР
Citation: Lu Gangfan. Speaker recognition using neural networks = Распознавание диктора с использованием нейронных сетей / Lu Gangfan // Информационная безопасность : сборник материалов 60-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 22–26 апреля 2024 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2024. – С. 14–19.
Abstract: This project demonstrates how to build a speaker recognition system using deep learning techniques. The system uses MFCC to extract features from audio data and capture spectral and time domain information of speech. After comparing traditional classification methods and neural network classification methods, then chooses a recurrent neural network (RNNs) to process of sequence data using. The project was trained and evaluated on the famous audio dataset VoxCelebl to train and evaluate various speaker recognition models using python. The system achieved a test accuracy of 93%. Tlus result demonstrates tliat the system is able to effectively distinguish between different speakers.
Alternative abstract: Показан подход к построению системы распознавания диктора с использованием методов глубокого обучения. Система использует мел-частотные кепстральные коэффициенты в качестве характеристик аудиоданных. Проведено сравнение традиционных методов классификации и классификации с использованием нейронных сетей, по результатам сравнения для обработки речевых сигналов выбраны рекуррентные нейронные сети (RNNs). Модель, реализованная на языке программирования Python, была обучена на датасете VoxCelebl. Точность распознавания (accuracy) составила 93%, что позволяет модели эффективно распознавать различных дикторов,
URI: https://libeldoc.bsuir.by/handle/123456789/57899
Appears in Collections:Информационная безопасность : материалы 60-й научной конференции аспирантов, магистрантов и студентов (2024)

Files in This Item:
File Description SizeFormat 
Lu_Gangfan_Speaker.pdf3.29 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.