Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/45961
Title: Об оценке результатов классификации несбалансированных данных по матрице ошибок
Other Titles: About the confusion-matrix-based assessment of the results of imbalanced data classification
Authors: Старовойтов, В. В.
Голуб, Ю. И.
Keywords: публикации ученых;классификация объектов;матрица ошибок;нейронные сети;classification of objects;confusion matrix;neural network
Issue Date: 2021
Publisher: ОИПИ НАН Беларуси
Citation: Старовойтов, В. В. Об оценке результатов классификации несбалансированных данных по матрице ошибок / Старовойтов В. В., Голуб Ю. И. // Информатика. – 2021. – Т. 18, № 3. – С. 61–71. – DOI : https://doi.org/10.37661/1816-0301-2021-18-1-61-71.
Abstract: При применении классификаторов в реальных приложениях часто число элементов одного класса больше числа элементов другого, т. е. имеет место дисбаланс данных. В статье исследуются оценки результатов классификации данных такого типа. Рассматривается, какой из переводов термина confusion matrix более точен, как предпочтительнее представлять данные в такой матрице и какими функциями лучше оценивать результаты классификации по ней. На реальных данных демонстрируется, что с помощью популярной функции точности accuracy не всегда корректно оцениваются ошибки классификации несбалансированных данных. Нельзя также сравнивать значения функции accuracy, вычисленные по матрицам с абсолютными количественными и нормализованными по классам результатами классификации. При дисбалансе данных точность, вычисленная по матрице ошибок с нормализованными значениями, как правило, будет иметь меньшие значения, поскольку она определяется по иной формуле. Такой же вывод сделан относительно большинства функций, используемых в литературе для нахождения оценок результатов классификации. Показывается, что для представления матриц ошибок лучше использовать абсолютные значения распределения объектов по классам вместо относительных, так как они описывают количество протестированных данных каждого класса и их дисбаланс. При построении классификаторов рекомендуется оценивать ошибки функциями, не зависящими от дисбаланса данных, что позволяет надеяться на получение более корректных результатов классификации реальных данных.
Alternative abstract: When applying classifiers in real-world applications, data imbalance often occurs when the number of elements of one class is greater than another. The article examines the estimates of the classification results for this type of data. The paper provides answers to three questions: which term is a more accurate translation of the phrase confusion matrix, how it is preferable to represent data in this matrix, and what functions are better to evaluate the results of classification by such a matrix. The paper demonstrates on real data that the popular accuracy function cannot correctly estimate the classification errors for imbalanced data. It is also impossible to compare the values of this function, calculated by matrices with the absolute quantitative results of classification and normalized by classes. If the data is imbalanced, the accuracy calculated from the confusion matrix with normalized values will usually have lower values, since it is calculated by a different formula. The same conclusion is made for most of the classification accuracy functions used in the literature for estimation of classification results. It is shown that to represent confusion matrices it is better to use absolute values of object distribution by classes instead of relative ones, since they give an idea of the amount of data tested for each class and their imbalance. When constructing classifiers, it is recommended to evaluate errors by functions that do not depend on the data imbalance, which allows us to hope for more correct classification results for real data.
URI: https://libeldoc.bsuir.by/handle/123456789/45961
Appears in Collections:Публикации в изданиях Республики Беларусь

Files in This Item:
File Description SizeFormat 
Starovoytov_Ob.pdf836.01 kBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.