Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи

Макар, Д. А.; Вашкевич, М. И.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Макар, Д. А.	-
dc.contributor.author	Вашкевич, М. И.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-03-10T05:56:53Z	-
dc.date.available	2026-03-10T05:56:53Z	-
dc.date.issued	2026	-
dc.identifier.citation	Макар, Д. А. Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи = Neural network based on convolutional, recurrent layers and an attention mechanism for visual speech recognition / Д. А. Макар, М. И. Вашкевич // Доклады БГУИР. – 2026. – Т. 24, № 1. – С. 75–82.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/63072	-
dc.description.abstract	Визуальное распознавание речи представляет собой задачу классификации произносимых слов или букв по видеопотоку, фиксирующему движения губ. В статье представлены синтез и исследование нейросетевой архитектуры для визуального распознавания речи на основе комбинации сверточных и рекуррентных нейронных сетей с механизмом внимания. Обучение и оценка модели проводились на базе данных AVLetters2 в наиболее сложном дикторонезависимом режиме. Архитектура модели включает кодировщик на основе сверточных слоев для извлечения пространственных признаков, рекуррентные слои на основе блоков GRU для моделирования временных зависимостей и механизм внимания для выделения информативных фрагментов речевой последовательности. Для оценки точности модели проведена пятикратная перекрестная проверка. Подбор гиперпараметров модели осуществлялся на основе байесовской оптимизации, позволившей определить оптимальную конфигурацию параметров модели и процесса обучения. В результате проведенных экспериментов достигнута средняя точность распознавания 14,3 %. Анализ результатов выявил значительную вариативность качества распознавания в зависимости от характеристик дикторов (точность составила от 3,9 до 31,9 %), что указывает на необходимость дальнейшего повышения инвариантности модели к междикторским различиям.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	доклады БГУИР	en_US
dc.subject	сверточные нейронные сети	en_US
dc.subject	рекуррентные нейронные сети	en_US
dc.subject	механизмы внимания	en_US
dc.title	Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи	en_US
dc.title.alternative	Neural network based on convolutional, recurrent layers and an attention mechanism for visual speech recognition	en_US
dc.identifier.DOI	http://dx.doi.org/10.35596/1729-7648-2026-24-1-75-82	-
local.description.annotation	Visual speech recognition is the task of classifying spoken words or letters from a video stream cap turing lip movements. This paper presents the synthesis and study of a neural network architecture for visual speech recognition based on a combination of convolutional and recurrent neural networks with an attention mechanism. The model was trained and evaluated on the AVLetters2 dataset in the most challenging speaker- independent mode. The model architecture includes an encoder based on convolutional layers for extracting spatial features, recurrent layers based on GRU units for modeling temporal dependencies, and an attention mechanism for highlighting informative fragments of the speech sequence. To assess the accuracy of the model, five-fold cross-validation was performed. Model hyperparameters were selected using Bayesian optimization, which al lowed us to determine the optimal configuration of the model parameters and the training process. As a result of the experiments, an average recognition accuracy of 14.3 % was achieved. Analysis of the results revealed significant variability in recognition quality depending on the characteristics of the speakers (accuracy ranged from 3.9 to 31.9 %), which indicates the need to further improve the invariance of the model to inter-speaker differences	en_US
Appears in Collections:	Том 24, № 1