| DC Field | Value | Language |
| dc.contributor.author | Зубрицкая, Е. И. | - |
| dc.coverage.spatial | Минск | en_US |
| dc.date.accessioned | 2026-06-09T13:41:32Z | - |
| dc.date.available | 2026-06-09T13:41:32Z | - |
| dc.date.issued | 2026 | - |
| dc.identifier.citation | Зубрицкая, Е. И. Система визуального распознавания речи на основе нейронной сети трансформерного типа = A visual speech recognition system based on a transformer-type neural network / Е. И. Зубрицкая // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 284–288. | en_US |
| dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/64106 | - |
| dc.description.abstract | В работе представлена разработка архитектуры нейронной сети на базе трансформера для задачи визуального
распознавания речи. Был собран собственный набор данных, а также выполнена его предобработка, составлена архитектура сверточной сети для извлечения визуальных признаков. При проектировании использовались детектор ключевых точек лица на базе MediaPipe, блоки кодировщика для анализа визуальных признаков и создания их контекстного представления и декодировщика для пошаговой генерации текста на основе выходов кодировщика. В работе показаны примеры полученных данных и архитектур сети. | en_US |
| dc.language.iso | ru | en_US |
| dc.publisher | БГУИР | en_US |
| dc.subject | материалы конференций | en_US |
| dc.subject | нейронные сети | en_US |
| dc.subject | распознавание речи | en_US |
| dc.subject | системы визуального распознавания | en_US |
| dc.subject | компьютерное зрение | en_US |
| dc.title | Система визуального распознавания речи на основе нейронной сети трансформерного типа | en_US |
| dc.title.alternative | A visual speech recognition system based on a transformer-type neural network | en_US |
| dc.type | Article | en_US |
| local.description.annotation | The work presents the development of a transformer-based neural network architecture for the task of visual speech recognition.
A proprietary data set was collected, as well as its preprocessing, and the architecture of a convolutional network for extracting visual features was compiled. During the design, a MediaPipe-based face key point detector, encoder blocks for analyzing visual features and creating their contextual representation, and a decoder for step-by-step text generation based on encoder outputs were used. The work shows examples of the received data and network architectures. | en_US |
| Appears in Collections: | Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)
|