Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/43914
Full metadata record
DC FieldValueLanguage
dc.contributor.authorСтаровойтов, В. В.-
dc.contributor.authorГолуб, Ю. И.-
dc.date.accessioned2021-06-04T12:19:38Z-
dc.date.available2021-06-04T12:19:38Z-
dc.date.issued2021-
dc.identifier.citationСтаровойтов, В. В. Как оценивать результаты классификации несбалансированных больших данных? / В. В. Старовойтов, Ю. И. Голуб // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей VII Международной научно-практической конференции, Минск, 19-20 мая 2021 года / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2021. – С. 272–283.ru_RU
dc.identifier.isbn978-985-7267-09-5-
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/43914-
dc.description.abstractКлассификация больших данных неравномерно распределенных по классам является серьезной проблемой интеллектуального анализа данных. При массовом скрининге пациентов в соотношении больных и здоровых всегда имеет место дисбаланс классов. При определении, например, степени заболевания раком – аналогично. При существенном дисбалансе данных классическая функция точности (Accuracy) не учитывает особенности малых классов и может ошибочно посчитать лучшим вариант с множеством ошибок в малых классах. В статье приведены результаты сравнительного анализа 17 функций оценки качества классификации на примерах матриц ошибок для 7 классов реальных и искусственных данных. Показано, что 4 функции инвариантны к дисбалансу данных. Описаны их достоинства и недостатки.ru_RU
dc.language.isoruru_RU
dc.publisherБестпринтru_RU
dc.subjectпубликации ученыхru_RU
dc.subjectматериалы конференцийru_RU
dc.subjectнесбалансированные данныеru_RU
dc.subjectматрица ошибокru_RU
dc.subjectфункции оценки точностиru_RU
dc.subjectimbalanced dataru_RU
dc.subjectconfusion matrxru_RU
dc.subjectaccuracy estimation functionsru_RU
dc.titleКак оценивать результаты классификации несбалансированных больших данных?ru_RU
dc.title.alternativeHow to evaluate results of imbalanced Big Data classificationru_RU
dc.typeArticleru_RU
local.description.annotationClassification of imbalanced big data is an important data mining problem. In mass screening, there is always a class imbalance in the ratio of sick and healthy. When determining, for example, the degree of cancer, it is the same. If there is a significant imbalance in the data, the classic Accuracy function does not take into account the peculiarities of small classes and may erroneously consider the best option with many errors in small classes. The article presents the results of a comparative analysis of 17 functions for quality assessment of classification on examples of confusion matrices for 7 classes of real and artificial data. It is shown that 4 functions are invariant to data imbalance. Their advantages and disadvantages are described.-
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей (2021)

Files in This Item:
File Description SizeFormat 
Starovoytov_Kak.pdf1.46 MBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.