Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63703
Full metadata record
DC FieldValueLanguage
dc.contributor.authorДо, А. Т.-
dc.coverage.spatialМинскen_US
dc.date.accessioned2026-05-18T06:36:37Z-
dc.date.available2026-05-18T06:36:37Z-
dc.date.issued2026-
dc.identifier.citationДо, А. Т. Обнаружение речевой активности в условиях реального шума = Voice activity detection in noisy real-world environments / А. Т. До // Информационная безопасность : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: С. В. Дробот (гл. ред.) [и др.]. – Минск, 2026. – С. 13–18.en_US
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/63703-
dc.description.abstractОбнаружение речевой активности (Voice Activity Detection, VAD) в зашумленных средах, особенно при низком отношении сигнал-шум (Signal-to-Noise Ratio, SNR), остается сложной задачей для реальных приложений, таких как слуховые аппараты, умные колонки и системы телеконференций. Традиционные методы VAD часто не способны обобщаться на различные типы шума и уровни SNR. В данной статье мы предлагаем новую структуру VAD на основе глубокого обучения, которая эффективно решает эту проблему. Наш подход использует модуль многомасштабного извлечения признаков для захвата как кратковременных деталей, так и долгосрочной контекстной информации из речевого сигнала. Кроме того, мы внедряем механизм самовнимания для динамического фокусирования на наиболее информативных временных кадрах и частотных полосах, что повышает устойчивость модели к нестационарным шумам. Мы оцениваем наш метод на нескольких эталонных наборах данных, включая DNS Challenge и корпус CHiME-3, при различных условиях SNR в диапазоне от -5 дБ до 15 дБ. Экспериментальные результаты показывают, что предлагаемая модель значительно превосходит современные базовые методы, достигая более высокой точности и меньшего уровня ложных тревог, особенно в условиях экстремально низкого SNR.en_US
dc.language.isoruen_US
dc.publisherБГУИРen_US
dc.subjectматериалы конференцийen_US
dc.subjectобнаружение речевой активностиen_US
dc.subjectглубокое обучениеen_US
dc.subjectнизкое отношение сигнал-шумen_US
dc.subjectзашумленные средыen_US
dc.subjectмногомасштабное слияние признаковen_US
dc.subjectмеханизм самовниманияen_US
dc.subjectдвунаправленная GRUen_US
dc.subjectDNS Challengeen_US
dc.titleОбнаружение речевой активности в условиях реального шумаen_US
dc.title.alternativeVoice activity detection in noisy real-world environmentsen_US
dc.typeArticleen_US
local.description.annotationVoice Activity Detection (VAD) in noisy environments, especially at low Signal-to-Noise Ratio (SNR), remains a challenging task for real-world applications such as hearing aids, smart speakers, and teleconferencing systems. Traditional VAD methods often fail to generalize across different noise types and SNR levels. In this paper, we propose a novel deep learning-based VAD framework that effectively addresses this problem. Our approach employs a multi-scale feature extraction module to capture both short-term transient details and long-term contextual information from the speech signal. Furthermore, we incorporate a self-attention mechanism to dynamically focus on the most informative temporal frames and frequency bands, thereby enhancing the model's robustness against non-stationary noise. We evaluate our method on several benchmark datasets, including the DNS Challenge and the CHiME-3 corpus, under various SNR conditions ranging from -5 dB to 15 dB. Experimental results demonstrate that the proposed model significantly outperforms state-of-the-art baseline methods, achieving higher accuracy and lower false alarm rates, especially under extremely low SNR conditions.en_US
Appears in Collections:Информационная безопасность : материалы 62-й научной конференции аспирантов, магистрантов и студентов (2026)

Files in This Item:
File Description SizeFormat 
Do_Obnaruzhenie.pdf544.57 kBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.