Обнаружение речевой активности в условиях реального шума

До, А. Т.

Full metadata record

DC Field	Value	Language
dc.contributor.author	До, А. Т.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-05-18T06:36:37Z	-
dc.date.available	2026-05-18T06:36:37Z	-
dc.date.issued	2026	-
dc.identifier.citation	До, А. Т. Обнаружение речевой активности в условиях реального шума = Voice activity detection in noisy real-world environments / А. Т. До // Информационная безопасность : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: С. В. Дробот (гл. ред.) [и др.]. – Минск, 2026. – С. 13–18.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/63703	-
dc.description.abstract	Обнаружение речевой активности (Voice Activity Detection, VAD) в зашумленных средах, особенно при низком отношении сигнал-шум (Signal-to-Noise Ratio, SNR), остается сложной задачей для реальных приложений, таких как слуховые аппараты, умные колонки и системы телеконференций. Традиционные методы VAD часто не способны обобщаться на различные типы шума и уровни SNR. В данной статье мы предлагаем новую структуру VAD на основе глубокого обучения, которая эффективно решает эту проблему. Наш подход использует модуль многомасштабного извлечения признаков для захвата как кратковременных деталей, так и долгосрочной контекстной информации из речевого сигнала. Кроме того, мы внедряем механизм самовнимания для динамического фокусирования на наиболее информативных временных кадрах и частотных полосах, что повышает устойчивость модели к нестационарным шумам. Мы оцениваем наш метод на нескольких эталонных наборах данных, включая DNS Challenge и корпус CHiME-3, при различных условиях SNR в диапазоне от -5 дБ до 15 дБ. Экспериментальные результаты показывают, что предлагаемая модель значительно превосходит современные базовые методы, достигая более высокой точности и меньшего уровня ложных тревог, особенно в условиях экстремально низкого SNR.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	материалы конференций	en_US
dc.subject	обнаружение речевой активности	en_US
dc.subject	глубокое обучение	en_US
dc.subject	низкое отношение сигнал-шум	en_US
dc.subject	зашумленные среды	en_US
dc.subject	многомасштабное слияние признаков	en_US
dc.subject	механизм самовнимания	en_US
dc.subject	двунаправленная GRU	en_US
dc.subject	DNS Challenge	en_US
dc.title	Обнаружение речевой активности в условиях реального шума	en_US
dc.title.alternative	Voice activity detection in noisy real-world environments	en_US
dc.type	Article	en_US
local.description.annotation	Voice Activity Detection (VAD) in noisy environments, especially at low Signal-to-Noise Ratio (SNR), remains a challenging task for real-world applications such as hearing aids, smart speakers, and teleconferencing systems. Traditional VAD methods often fail to generalize across different noise types and SNR levels. In this paper, we propose a novel deep learning-based VAD framework that effectively addresses this problem. Our approach employs a multi-scale feature extraction module to capture both short-term transient details and long-term contextual information from the speech signal. Furthermore, we incorporate a self-attention mechanism to dynamically focus on the most informative temporal frames and frequency bands, thereby enhancing the model's robustness against non-stationary noise. We evaluate our method on several benchmark datasets, including the DNS Challenge and the CHiME-3 corpus, under various SNR conditions ranging from -5 dB to 15 dB. Experimental results demonstrate that the proposed model significantly outperforms state-of-the-art baseline methods, achieving higher accuracy and lower false alarm rates, especially under extremely low SNR conditions.	en_US
Appears in Collections:	Информационная безопасность : материалы 62-й научной конференции аспирантов, магистрантов и студентов (2026)