Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63916
Title: Исследование балансировки на реальных данных
Other Titles: Research of balancing on real data
Authors: Потёмин, И. В.
Keywords: материалы конференций;машинное обучение;дисбаланс классов;балансировка данных;передискретизация;недодискретизация;взвешивание классов;бинарная классификация;логистическая регрессия
Issue Date: 2026
Publisher: БГУИР
Citation: Потёмин, И. В. Исследование балансировки на реальных данных = Research of balancing on real data / И. В. Потёмин // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 73–79.
Abstract: В работе исследуется влияние дисбаланса классов на эффективность алгоритмов машинного обучения. На примере датасета прогнозирования профессионального выгорания проведено сравнение трёх методов балансировки: передискретизации, недодискретизации и взвешивания классов. Экспериментально оценены логистическая регрессия, дерево решений и метод опорных векторов. Установлено, что игнорирование дисбаланса приводит к неспособности моделей выявлять минорный класс при высокой общей точности. Наиболее универсальным решением признано взвешивание классов, обеспечивающее высокую сбалансированную точность и PR-AUC без изменения объёма данных. Результаты формируют рекомендации по выбору стратегии балансировки для задач с неравномерным распределением классов.
Alternative abstract: The paper examines the influence of class imbalance on the efficiency of machine learning algorithms. Using the example of a dataset of professional burnout forecasting, three balancing methods are compared: oversampling, undersampling and weighing classes. Logistic regression, decision tree and reference vector method were experimentally evaluated. It has been established that ignoring the imbalance leads to the inability of models to identify a minor class with high overall accuracy. Class weighing is recognized as the most versatile solution, providing high balanced accuracy and PR-AUC without changing the amount of data. The results form recommendations for choosing a balancing strategy for tasks with an uneven distribution of classes.
URI: https://libeldoc.bsuir.by/handle/123456789/63916
Appears in Collections:Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)

Files in This Item:
File Description SizeFormat 
Potyomin_Issledovanie.pdf1.36 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.