Developing Birds Sound Recognition System Using an Ontological Approach

Zianouka, Y.; Bialiauski, D.; Kajharodava, L.; Trafimau, A.; Chachlou, V.; Hetsevich, J.; Zahariev, V.; Zhaksylyk, K.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/51271

Title:	Developing Birds Sound Recognition System Using an Ontological Approach
Other Titles:	Разработка системы распознавания звуков птиц с использованием онтологического подхода
Authors:	Zianouka, Y. Bialiauski, D. Kajharodava, L. Trafimau, A. Chachlou, V. Hetsevich, J. Zahariev, V. Zhaksylyk, K.
Keywords:	материалы конференций;recognition system;machine learning;Mel-frequency cepstral coefficients (MFCCs)
Issue Date:	2023
Publisher:	БГУИР
Citation:	Zianouka, Y. Developing birds sound recognition system using an ontological approach = Разработка системы распознавания звуков птиц с использованием онтологического подхода / Y. Zianouka [et al.] // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS) : сборник научных трудов / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Минск, 2023. – Вып. 7. – С. 165–170.
Abstract:	The article presents an intelligent model of automated voice recognition systems (on the example of birds). To develop it, a dataset of birds’ voices was annotated and processed using Mel-Frequency Cepstral Coefficient as an effective tool for modelling the subjective pitch and frequency content of audio signals. For composing and training the model, Convolutional Neural Network is used to implement high level results. The possibilities of using ontological approaches and OSTIS technology for further improvement of the quality of ML models are shown.
Alternative abstract:	В работе предложена модель распознавания голосов птиц Республики Беларусь, основанная на анализе мел-спектрограмм (MFCC, mel-frequency cepstrum). Мелспектрограмма — это графическое представление звукового сигнала, в котором частоты представлены в мел-шкале вместо линейной шкалы частот, используемой в обычной спектрограмме. Шкала Mel — шкала высоты звуков, отсеивающая частоты звуков, которые человек не слышит, и оставляет самые характерные, находящихся на одинаковой дистанции для слушателя. Для машинного обучения модели была использована глубокая нейронная сеть типа CNN (Convolutional Neural Network) для распознавания класса изображения голоса птиц, так как именно этот вид сети большеподходитдлязадачраспознаванияизображений.Для построения сети CNN мы применили сеть EfficientNetB3, а также еще три слоя (Flatten, Dropout, Dense с функцией softmax в качестве выхода). Таким образом, окончательная модель была построена на основе EfficientNetB3 и 14 различных классов (видов птиц) с оптимизатором Адама (Adam optimizer), категориальной функцией потерь перекрестной энтропии (categorical cross-entropy loss function) и сбалансированными весами классов.
URI:	https://libeldoc.bsuir.by/handle/123456789/51271
Appears in Collections:	OSTIS-2023

Files in This Item:

File	Description	Size	Format
Zianouka_Developing.pdf		175.38 kB	Adobe PDF	View/Open

Show full item record Google Scholar