Технологии глубокой нейронной сети многомасштабного детектирования лиц

Суша, А. В.; Вашкевич, М. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/39043

Title:	Технологии глубокой нейронной сети многомасштабного детектирования лиц
Other Titles:	Deep multi-scale face detector based on deep neural network
Authors:	Суша, А. В. Вашкевич, М. И.
Keywords:	материалы конференций;детектирование лиц;глубокие нейронные сети;сверточные нейронные сети;face detection;deep neural networks;convolutional neural networks
Issue Date:	2020
Publisher:	Беспринт
Citation:	Суша, А. В. Технологии глубокой нейронной сети многомасштабного детектирования лиц / А. В. Суша, М. И. Вашкевич // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня: сборник материалов VI Международной научно-практической конференции, Минск, 20–21 мая 2020 г. : в 3 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 399–408.
Abstract:	Целью настоящей работы являлось проектирование глубокой искусственной нейронной сети для детектирования лиц. Основное внимание при проектировании было уделено обеспечению высокой производительности и уменьшению требуемых вычислительных затрат за счет: 1) факторизации операции свертки; 2) применения точечных сверток; 3) комбинирования поканальных и точечных сверток. Разработанный детектор сравнивался со схожими детекторами лиц, полученными на основе широко распространенных архитектур нейронных сетей MobileNet и NasNet. Предложенная архитектура детектора лиц имеет вычислительную сложность 5.1 MFLOPs, что в два раза меньше, чем у MobileNet (11.7 MFLOPs) и в четыре раза меньше, чем у NasNet (22 MFLOPs). Соответственно время детектирования на изображении 416×416 составило 5.12 мс (или 195 FPS) с видеокарты GeForce 1080 Ti, а также 65.4 мс (или 15 FPS) на одном ядре процессора Intel Core i7-8700K. При этом точность нашей архитектуры равна 85% и уступает MobileNet лишь на 4%, а NasNet – на 9.5%.
Alternative abstract:	The main objective of this work was a development of a deep artificial neural network for face detection purposes. The focus of its design was made on providing of the high performance of the detector and lowering of its computational power requirements by using: 1) factorization of convolution; 2) pointwise convolution; 3) combination of depthwise and pointwise convolution. The detector was compared with similar face detectors based on other well-known neural network architectures MobileNet and NasNet. The proposed face detector has a computational complexity equalling 5.1 MFLOPs, which is two times less than MobileNet’s one (11,7 MFLOPs) and four times less than NasNet’s one (22 MFLOPs). The detection time for 416 × 416 image was 5.12 ms (or 195 FPS) using GPU GeForce 1080 Ti, and 65.4 ms (or 15 FPS) using one processor core of Intel Core i7-8700K. The precision of our design is 85% and less on 4% than MobileNet has, and less on 9.5% than NasNet has.
URI:	https://libeldoc.bsuir.by/handle/123456789/39043
ISBN:	978-985-90533-7-5
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)

Files in This Item:

File	Description	Size	Format
Susha_Tekhnologii.pdf		1.45 MB	Adobe PDF	View/Open

Show full item record Google Scholar