Система визуального распознавания речи на основе нейронной сети трансформерного типа

Зубрицкая, Е. И.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Зубрицкая, Е. И.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-06-09T13:41:32Z	-
dc.date.available	2026-06-09T13:41:32Z	-
dc.date.issued	2026	-
dc.identifier.citation	Зубрицкая, Е. И. Система визуального распознавания речи на основе нейронной сети трансформерного типа = A visual speech recognition system based on a transformer-type neural network / Е. И. Зубрицкая // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 284–288.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/64106	-
dc.description.abstract	В работе представлена разработка архитектуры нейронной сети на базе трансформера для задачи визуального распознавания речи. Был собран собственный набор данных, а также выполнена его предобработка, составлена архитектура сверточной сети для извлечения визуальных признаков. При проектировании использовались детектор ключевых точек лица на базе MediaPipe, блоки кодировщика для анализа визуальных признаков и создания их контекстного представления и декодировщика для пошаговой генерации текста на основе выходов кодировщика. В работе показаны примеры полученных данных и архитектур сети.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	материалы конференций	en_US
dc.subject	нейронные сети	en_US
dc.subject	распознавание речи	en_US
dc.subject	системы визуального распознавания	en_US
dc.subject	компьютерное зрение	en_US
dc.title	Система визуального распознавания речи на основе нейронной сети трансформерного типа	en_US
dc.title.alternative	A visual speech recognition system based on a transformer-type neural network	en_US
dc.type	Article	en_US
local.description.annotation	The work presents the development of a transformer-based neural network architecture for the task of visual speech recognition. A proprietary data set was collected, as well as its preprocessing, and the architecture of a convolutional network for extracting visual features was compiled. During the design, a MediaPipe-based face key point detector, encoder blocks for analyzing visual features and creating their contextual representation, and a decoder for step-by-step text generation based on encoder outputs were used. The work shows examples of the received data and network architectures.	en_US
Appears in Collections:	Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)