Обнаружение речевой активности в условиях реального шума

До, А. Т.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63703

Title:	Обнаружение речевой активности в условиях реального шума
Other Titles:	Voice activity detection in noisy real-world environments
Authors:	До, А. Т.
Keywords:	материалы конференций;обнаружение речевой активности;глубокое обучение;низкое отношение сигнал-шум;зашумленные среды;многомасштабное слияние признаков;механизм самовнимания;двунаправленная GRU;DNS Challenge
Issue Date:	2026
Publisher:	БГУИР
Citation:	До, А. Т. Обнаружение речевой активности в условиях реального шума = Voice activity detection in noisy real-world environments / А. Т. До // Информационная безопасность : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: С. В. Дробот (гл. ред.) [и др.]. – Минск, 2026. – С. 13–18.
Abstract:	Обнаружение речевой активности (Voice Activity Detection, VAD) в зашумленных средах, особенно при низком отношении сигнал-шум (Signal-to-Noise Ratio, SNR), остается сложной задачей для реальных приложений, таких как слуховые аппараты, умные колонки и системы телеконференций. Традиционные методы VAD часто не способны обобщаться на различные типы шума и уровни SNR. В данной статье мы предлагаем новую структуру VAD на основе глубокого обучения, которая эффективно решает эту проблему. Наш подход использует модуль многомасштабного извлечения признаков для захвата как кратковременных деталей, так и долгосрочной контекстной информации из речевого сигнала. Кроме того, мы внедряем механизм самовнимания для динамического фокусирования на наиболее информативных временных кадрах и частотных полосах, что повышает устойчивость модели к нестационарным шумам. Мы оцениваем наш метод на нескольких эталонных наборах данных, включая DNS Challenge и корпус CHiME-3, при различных условиях SNR в диапазоне от -5 дБ до 15 дБ. Экспериментальные результаты показывают, что предлагаемая модель значительно превосходит современные базовые методы, достигая более высокой точности и меньшего уровня ложных тревог, особенно в условиях экстремально низкого SNR.
Alternative abstract:	Voice Activity Detection (VAD) in noisy environments, especially at low Signal-to-Noise Ratio (SNR), remains a challenging task for real-world applications such as hearing aids, smart speakers, and teleconferencing systems. Traditional VAD methods often fail to generalize across different noise types and SNR levels. In this paper, we propose a novel deep learning-based VAD framework that effectively addresses this problem. Our approach employs a multi-scale feature extraction module to capture both short-term transient details and long-term contextual information from the speech signal. Furthermore, we incorporate a self-attention mechanism to dynamically focus on the most informative temporal frames and frequency bands, thereby enhancing the model's robustness against non-stationary noise. We evaluate our method on several benchmark datasets, including the DNS Challenge and the CHiME-3 corpus, under various SNR conditions ranging from -5 dB to 15 dB. Experimental results demonstrate that the proposed model significantly outperforms state-of-the-art baseline methods, achieving higher accuracy and lower false alarm rates, especially under extremely low SNR conditions.
URI:	https://libeldoc.bsuir.by/handle/123456789/63703
Appears in Collections:	Информационная безопасность : материалы 62-й научной конференции аспирантов, магистрантов и студентов (2026)

Files in This Item:

File	Description	Size	Format
Do_Obnaruzhenie.pdf		544.57 kB	Adobe PDF	View/Open

Show full item record Google Scholar