Как оценивать результаты классификации несбалансированных больших данных?

Старовойтов, В. В.; Голуб, Ю. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/43914

Title:	Как оценивать результаты классификации несбалансированных больших данных?
Other Titles:	How to evaluate results of imbalanced Big Data classification
Authors:	Старовойтов, В. В. Голуб, Ю. И.
Keywords:	публикации ученых;материалы конференций;несбалансированные данные;матрица ошибок;функции оценки точности;imbalanced data;confusion matrx;accuracy estimation functions
Issue Date:	2021
Publisher:	Бестпринт
Citation:	Старовойтов, В. В. Как оценивать результаты классификации несбалансированных больших данных? / В. В. Старовойтов, Ю. И. Голуб // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей VII Международной научно-практической конференции, Минск, 19-20 мая 2021 года / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2021. – С. 272–283.
Abstract:	Классификация больших данных неравномерно распределенных по классам является серьезной проблемой интеллектуального анализа данных. При массовом скрининге пациентов в соотношении больных и здоровых всегда имеет место дисбаланс классов. При определении, например, степени заболевания раком – аналогично. При существенном дисбалансе данных классическая функция точности (Accuracy) не учитывает особенности малых классов и может ошибочно посчитать лучшим вариант с множеством ошибок в малых классах. В статье приведены результаты сравнительного анализа 17 функций оценки качества классификации на примерах матриц ошибок для 7 классов реальных и искусственных данных. Показано, что 4 функции инвариантны к дисбалансу данных. Описаны их достоинства и недостатки.
Alternative abstract:	Classification of imbalanced big data is an important data mining problem. In mass screening, there is always a class imbalance in the ratio of sick and healthy. When determining, for example, the degree of cancer, it is the same. If there is a significant imbalance in the data, the classic Accuracy function does not take into account the peculiarities of small classes and may erroneously consider the best option with many errors in small classes. The article presents the results of a comparative analysis of 17 functions for quality assessment of classification on examples of confusion matrices for 7 classes of real and artificial data. It is shown that 4 functions are invariant to data imbalance. Their advantages and disadvantages are described.
URI:	https://libeldoc.bsuir.by/handle/123456789/43914
ISBN:	978-985-7267-09-5
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей (2021)

Files in This Item:

File	Description	Size	Format
Starovoytov_Kak.pdf		1.46 MB	Adobe PDF	View/Open

Show full item record Google Scholar