Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/39042
Full metadata record
DC FieldValueLanguage
dc.contributor.authorСтаровойтов, В. В.-
dc.date.accessioned2020-06-05T07:55:25Z-
dc.date.available2020-06-05T07:55:25Z-
dc.date.issued2020-
dc.identifier.citationСтаровойтов, В. В. Проблемы статистических оценок при анализе несбалансированных классов больших данных / В. В. Старовойтов // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня: сб. материалов VI Междунар. науч.-практ. конф., Минск, 20-21 мая 2020 года: в 3 ч. Ч. 1 / редкол. : В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 409–419.ru_RU
dc.identifier.isbn978-985-90533-7-5-
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/39042-
dc.description.abstractВ статье утверждается что прикладная статистика в настоящее время не готова к анализу и обработке больших данных. Вычислять средние значения, дисперсию и прочие статистические характеристики для многочисленных и разнообразных классов объектов, относящихся к категории больших данных, бессмысленно и бесполезно. Одной из актуальных задач является классификация множества объектов на существенно различные по объему классы. К ним относятся реальные задачи разделения людей на заболевших некоторой болезнью и здоровых, сортировка электронной почты на спам и обычные сообщения и т.п. Разработано множество методов классификации данных. Результаты их работы описываются матрицами ошибок. По этим матрицам можно оценить качество классификации и выбрать лучший метод классификации определенных данных. До настоящего времени для оценки качества результатов классификации данных чаще всего используются функции Accuracy, Sensitivity, Specificity и F1. В результате экспериментальных исследований установлено, что указанные функции искажают истинные результаты классификации в случае существенного дисбаланса классов. Показано, что для оценки бинарной классификации из известных функций наиболее инвариантной к дисбалансу классов является функция AUC, которая вычисляет площадь под ROCкривой. В случае бинарной классификации она равна среднему арифметическому значению функций Sensitivity и Specificity.ru_RU
dc.language.isoruru_RU
dc.publisherБеспринтru_RU
dc.subjectматериалы конференцийru_RU
dc.subjectприкладная статистикаru_RU
dc.subjectклассификация несбалансированных данныхru_RU
dc.subjectapplied statistics-
dc.subjectclassification of imbalanced data-
dc.titleПроблемы статистических оценок при анализе несбалансированных классов больших данныхru_RU
dc.title.alternativeProblems of statistical evaluations in analysis of imbalanced classes of Big Data-
dc.typeArticleru_RU
local.description.annotationThe article stated that applied statistics is currently not ready for analysis and processing of big data. It is senseless and useless to calculate the average values, variance, and other statistical characteristics for numerous and diverse classes of objects that belong to the category of big data.One of the actual tasks is classification of object sets into classes that are significantly different in volume. There are real problems to divide people into those who are sick and healthy, sorting emails into spam and regular messages, etc. Many data classification methods have been developed. Their results are described by confusion matrices. Using these matrices, one can evaluate quality of classification and choose the best method. To date, the basic functions of classification quality assessment are Accuracy, Sensitivity, Specificity, and F1. As a result of experimentalstudies, it wasfound that these functions distort the true assessment ofthe classification quality in the case of a significant class imbalance. We have shown that to evaluate the binary classification the AUC function is the best among well-known functions. It calculates the area under the ROC curve. In the case of binary classification, it is equal to the mean value of the Sensitivity and Specificity.-
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)

Files in This Item:
File Description SizeFormat 
Starovoytov_Problemy.pdf1.3 MBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.