Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63072
Full metadata record
DC FieldValueLanguage
dc.contributor.authorМакар, Д. А.-
dc.contributor.authorВашкевич, М. И.-
dc.coverage.spatialМинскen_US
dc.date.accessioned2026-03-10T05:56:53Z-
dc.date.available2026-03-10T05:56:53Z-
dc.date.issued2026-
dc.identifier.citationМакар, Д. А. Нейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речи = Neural network based on convolutional, recurrent layers and an attention mechanism for visual speech recognition / Д. А. Макар, М. И. Вашкевич // Доклады БГУИР. – 2026. – Т. 24, № 1. – С. 75–82.en_US
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/63072-
dc.description.abstractВизуальное распознавание речи представляет собой задачу классификации произносимых слов или букв по видеопотоку, фиксирующему движения губ. В статье представлены синтез и исследование нейросетевой архитектуры для визуального распознавания речи на основе комбинации сверточных и рекуррентных нейронных сетей с механизмом внимания. Обучение и оценка модели проводились на базе данных AVLetters2 в наиболее сложном дикторонезависимом режиме. Архитектура модели включает кодировщик на основе сверточных слоев для извлечения пространственных признаков, рекуррентные слои на основе блоков GRU для моделирования временных зависимостей и механизм внимания для выделения информативных фрагментов речевой последовательности. Для оценки точности модели проведена пятикратная перекрестная проверка. Подбор гиперпараметров модели осуществлялся на основе байесовской оптимизации, позволившей определить оптимальную конфигурацию параметров модели и процесса обучения. В результате проведенных экспериментов достигнута средняя точность распознавания 14,3 %. Анализ результатов выявил значительную вариативность качества распознавания в зависимости от характеристик дикторов (точность составила от 3,9 до 31,9 %), что указывает на необходимость дальнейшего повышения инвариантности модели к междикторским различиям.en_US
dc.language.isoruen_US
dc.publisherБГУИРen_US
dc.subjectдоклады БГУИРen_US
dc.subjectсверточные нейронные сетиen_US
dc.subjectрекуррентные нейронные сетиen_US
dc.subjectмеханизмы вниманияen_US
dc.titleНейронная сеть на основе сверточных, рекуррентных слоев и механизма внимания для визуального распознавания речиen_US
dc.title.alternativeNeural network based on convolutional, recurrent layers and an attention mechanism for visual speech recognitionen_US
dc.identifier.DOIhttp://dx.doi.org/10.35596/1729-7648-2026-24-1-75-82-
local.description.annotationVisual speech recognition is the task of classifying spoken words or letters from a video stream cap turing lip movements. This paper presents the synthesis and study of a neural network architecture for visual speech recognition based on a combination of convolutional and recurrent neural networks with an attention mechanism. The model was trained and evaluated on the AVLetters2 dataset in the most challenging speaker- independent mode. The model architecture includes an encoder based on convolutional layers for extracting spatial features, recurrent layers based on GRU units for modeling temporal dependencies, and an attention mechanism for highlighting informative fragments of the speech sequence. To assess the accuracy of the model, five-fold cross-validation was performed. Model hyperparameters were selected using Bayesian optimization, which al lowed us to determine the optimal configuration of the model parameters and the training process. As a result of the experiments, an average recognition accuracy of 14.3 % was achieved. Analysis of the results revealed significant variability in recognition quality depending on the characteristics of the speakers (accuracy ranged from 3.9 to 31.9 %), which indicates the need to further improve the invariance of the model to inter-speaker differencesen_US
Appears in Collections:Том 24, № 1

Files in This Item:
File Description SizeFormat 
Makar_Nejronnaya.pdf1.21 MBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.