Исследование балансировки на реальных данных

Потёмин, И. В.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Потёмин, И. В.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-06-02T05:58:55Z	-
dc.date.available	2026-06-02T05:58:55Z	-
dc.date.issued	2026	-
dc.identifier.citation	Потёмин, И. В. Исследование балансировки на реальных данных = Research of balancing on real data / И. В. Потёмин // Компьютерные системы и сети : сборник материалов 62-й научной конференции аспирантов, магистрантов и студентов БГУИР, Минск, 13–17 апреля 2026 г. / Белорусский государственный университет информатики и радиоэлектроники. – Минск, 2026. – С. 73–79.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/63916	-
dc.description.abstract	В работе исследуется влияние дисбаланса классов на эффективность алгоритмов машинного обучения. На примере датасета прогнозирования профессионального выгорания проведено сравнение трёх методов балансировки: передискретизации, недодискретизации и взвешивания классов. Экспериментально оценены логистическая регрессия, дерево решений и метод опорных векторов. Установлено, что игнорирование дисбаланса приводит к неспособности моделей выявлять минорный класс при высокой общей точности. Наиболее универсальным решением признано взвешивание классов, обеспечивающее высокую сбалансированную точность и PR-AUC без изменения объёма данных. Результаты формируют рекомендации по выбору стратегии балансировки для задач с неравномерным распределением классов.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	материалы конференций	en_US
dc.subject	машинное обучение	en_US
dc.subject	дисбаланс классов	en_US
dc.subject	балансировка данных	en_US
dc.subject	передискретизация	en_US
dc.subject	недодискретизация	en_US
dc.subject	взвешивание классов	en_US
dc.subject	бинарная классификация	en_US
dc.subject	логистическая регрессия	en_US
dc.title	Исследование балансировки на реальных данных	en_US
dc.title.alternative	Research of balancing on real data	en_US
dc.type	Article	en_US
local.description.annotation	The paper examines the influence of class imbalance on the efficiency of machine learning algorithms. Using the example of a dataset of professional burnout forecasting, three balancing methods are compared: oversampling, undersampling and weighing classes. Logistic regression, decision tree and reference vector method were experimentally evaluated. It has been established that ignoring the imbalance leads to the inability of models to identify a minor class with high overall accuracy. Class weighing is recognized as the most versatile solution, providing high balanced accuracy and PR-AUC without changing the amount of data. The results form recommendations for choosing a balancing strategy for tasks with an uneven distribution of classes.	en_US
Appears in Collections:	Компьютерные системы и сети : материалы 62-й научной конференции аспирантов, магистрантов и студентов : сборник статей (2026)