Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/64106
Full metadata record
DC FieldValueLanguage
dc.contributor.authorЗубрицкая, Е. И.-
dc.coverage.spatialМинскen_US
dc.date.accessioned2026-06-09T13:41:32Z-
dc.date.available2026-06-09T13:41:32Z-
dc.date.issued2026-
dc.identifier.citationЗубрицкая, Е. И. Система визуального распознавания речи на основе нейронной сети трансформерного типа = A visual speech recognition system based on a transformer-type neural network / Е. И. Зубрицкая // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 284–288.en_US
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/64106-
dc.description.abstractВ работе представлена разработка архитектуры нейронной сети на базе трансформера для задачи визуального распознавания речи. Был собран собственный набор данных, а также выполнена его предобработка, составлена архитектура сверточной сети для извлечения визуальных признаков. При проектировании использовались детектор ключевых точек лица на базе MediaPipe, блоки кодировщика для анализа визуальных признаков и создания их контекстного представления и декодировщика для пошаговой генерации текста на основе выходов кодировщика. В работе показаны примеры полученных данных и архитектур сети.en_US
dc.language.isoruen_US
dc.publisherБГУИРen_US
dc.subjectматериалы конференцийen_US
dc.subjectнейронные сетиen_US
dc.subjectраспознавание речиen_US
dc.subjectсистемы визуального распознаванияen_US
dc.subjectкомпьютерное зрениеen_US
dc.titleСистема визуального распознавания речи на основе нейронной сети трансформерного типаen_US
dc.title.alternativeA visual speech recognition system based on a transformer-type neural networken_US
dc.typeArticleen_US
local.description.annotationThe work presents the development of a transformer-based neural network architecture for the task of visual speech recognition. A proprietary data set was collected, as well as its preprocessing, and the architecture of a convolutional network for extracting visual features was compiled. During the design, a MediaPipe-based face key point detector, encoder blocks for analyzing visual features and creating their contextual representation, and a decoder for step-by-step text generation based on encoder outputs were used. The work shows examples of the received data and network architectures.en_US
Appears in Collections:Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)

Files in This Item:
File Description SizeFormat 
Zubrickaya_Sistema.pdf1.08 MBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.