Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи

Макар, Д. А.; Вашкевич, М. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63072

Title:	Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи
Other Titles:	Neural network based on convolutional, recurrent layers and an attention mechanism for visual speech recognition
Authors:	Макар, Д. А. Вашкевич, М. И.
Keywords:	доклады БГУИР;сверточные нейронные сети;рекуррентные нейронные сети;механизмы внимания
Issue Date:	2026
Publisher:	БГУИР
Citation:	Макар, Д. А. Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи = Neural network based on convolutional, recurrent layers and an attention mechanism for visual speech recognition / Д. А. Макар, М. И. Вашкевич // Доклады БГУИР. – 2026. – Т. 24, № 1. – С. 75–82.
Abstract:	Визуальное распознавание речи представляет собой задачу классификации произносимых слов или букв по видеопотоку, фиксирующему движения губ. В статье представлены синтез и исследование нейросетевой архитектуры для визуального распознавания речи на основе комбинации сверточных и рекуррентных нейронных сетей с механизмом внимания. Обучение и оценка модели проводились на базе данных AVLetters2 в наиболее сложном дикторонезависимом режиме. Архитектура модели включает кодировщик на основе сверточных слоев для извлечения пространственных признаков, рекуррентные слои на основе блоков GRU для моделирования временных зависимостей и механизм внимания для выделения информативных фрагментов речевой последовательности. Для оценки точности модели проведена пятикратная перекрестная проверка. Подбор гиперпараметров модели осуществлялся на основе байесовской оптимизации, позволившей определить оптимальную конфигурацию параметров модели и процесса обучения. В результате проведенных экспериментов достигнута средняя точность распознавания 14,3 %. Анализ результатов выявил значительную вариативность качества распознавания в зависимости от характеристик дикторов (точность составила от 3,9 до 31,9 %), что указывает на необходимость дальнейшего повышения инвариантности модели к междикторским различиям.
Alternative abstract:	Visual speech recognition is the task of classifying spoken words or letters from a video stream cap turing lip movements. This paper presents the synthesis and study of a neural network architecture for visual speech recognition based on a combination of convolutional and recurrent neural networks with an attention mechanism. The model was trained and evaluated on the AVLetters2 dataset in the most challenging speaker- independent mode. The model architecture includes an encoder based on convolutional layers for extracting spatial features, recurrent layers based on GRU units for modeling temporal dependencies, and an attention mechanism for highlighting informative fragments of the speech sequence. To assess the accuracy of the model, five-fold cross-validation was performed. Model hyperparameters were selected using Bayesian optimization, which al lowed us to determine the optimal configuration of the model parameters and the training process. As a result of the experiments, an average recognition accuracy of 14.3 % was achieved. Analysis of the results revealed significant variability in recognition quality depending on the characteristics of the speakers (accuracy ranged from 3.9 to 31.9 %), which indicates the need to further improve the invariance of the model to inter-speaker differences
URI:	https://libeldoc.bsuir.by/handle/123456789/63072
DOI:	http://dx.doi.org/10.35596/1729-7648-2026-24-1-75-82
Appears in Collections:	Том 24, № 1

Files in This Item:

File	Description	Size	Format
Makar_Nejronnaya.pdf		1.21 MB	Adobe PDF	View/Open

Show full item record Google Scholar