Проблемы статистических оценок при анализе несбалансированных классов больших данных

Старовойтов, В. В.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/39042

Title:	Проблемы статистических оценок при анализе несбалансированных классов больших данных
Other Titles:	Problems of statistical evaluations in analysis of imbalanced classes of Big Data
Authors:	Старовойтов, В. В.
Keywords:	материалы конференций;прикладная статистика;классификация несбалансированных данных;applied statistics;classification of imbalanced data
Issue Date:	2020
Publisher:	Беспринт
Citation:	Старовойтов, В. В. Проблемы статистических оценок при анализе несбалансированных классов больших данных / В. В. Старовойтов // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня: сборник материалов VI Международной научно-практической конференции, Минск, 20–21 мая 2020 г. : в 3 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2020. – С. 409–419.
Abstract:	В статье утверждается что прикладная статистика в настоящее время не готова к анализу и обработке больших данных. Вычислять средние значения, дисперсию и прочие статистические характеристики для многочисленных и разнообразных классов объектов, относящихся к категории больших данных, бессмысленно и бесполезно. Одной из актуальных задач является классификация множества объектов на существенно различные по объему классы. К ним относятся реальные задачи разделения людей на заболевших некоторой болезнью и здоровых, сортировка электронной почты на спам и обычные сообщения и т.п. Разработано множество методов классификации данных. Результаты их работы описываются матрицами ошибок. По этим матрицам можно оценить качество классификации и выбрать лучший метод классификации определенных данных. До настоящего времени для оценки качества результатов классификации данных чаще всего используются функции Accuracy, Sensitivity, Specificity и F1. В результате экспериментальных исследований установлено, что указанные функции искажают истинные результаты классификации в случае существенного дисбаланса классов. Показано, что для оценки бинарной классификации из известных функций наиболее инвариантной к дисбалансу классов является функция AUC, которая вычисляет площадь под ROCкривой. В случае бинарной классификации она равна среднему арифметическому значению функций Sensitivity и Specificity.
Alternative abstract:	The article stated that applied statistics is currently not ready for analysis and processing of big data. It is senseless and useless to calculate the average values, variance, and other statistical characteristics for numerous and diverse classes of objects that belong to the category of big data.One of the actual tasks is classification of object sets into classes that are significantly different in volume. There are real problems to divide people into those who are sick and healthy, sorting emails into spam and regular messages, etc. Many data classification methods have been developed. Their results are described by confusion matrices. Using these matrices, one can evaluate quality of classification and choose the best method. To date, the basic functions of classification quality assessment are Accuracy, Sensitivity, Specificity, and F1. As a result of experimentalstudies, it wasfound that these functions distort the true assessment ofthe classification quality in the case of a significant class imbalance. We have shown that to evaluate the binary classification the AUC function is the best among well-known functions. It calculates the area under the ROC curve. In the case of binary classification, it is equal to the mean value of the Sensitivity and Specificity.
URI:	https://libeldoc.bsuir.by/handle/123456789/39042
ISBN:	978-985-90533-7-5
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)

Files in This Item:

File	Description	Size	Format
Starovoytov_Problemy.pdf		1.3 MB	Adobe PDF	View/Open

Show full item record Google Scholar