DC Field | Value | Language |
dc.contributor.author | Старовойтов, В. В. | - |
dc.contributor.author | Голуб, Ю. И. | - |
dc.date.accessioned | 2021-06-04T12:19:38Z | - |
dc.date.available | 2021-06-04T12:19:38Z | - |
dc.date.issued | 2021 | - |
dc.identifier.citation | Старовойтов, В. В. Как оценивать результаты классификации несбалансированных больших данных? / В. В. Старовойтов, Ю. И. Голуб // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей VII Международной научно-практической конференции, Минск, 19-20 мая 2021 года / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2021. – С. 272–283. | ru_RU |
dc.identifier.isbn | 978-985-7267-09-5 | - |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/43914 | - |
dc.description.abstract | Классификация больших данных неравномерно распределенных по классам является серьезной проблемой интеллектуального анализа данных. При массовом скрининге пациентов в соотношении больных и здоровых всегда имеет место дисбаланс классов. При определении, например, степени заболевания раком – аналогично. При существенном дисбалансе данных классическая функция точности (Accuracy) не учитывает особенности малых классов и может ошибочно посчитать лучшим вариант с множеством ошибок в малых классах. В статье приведены результаты сравнительного анализа 17 функций оценки качества классификации на примерах матриц ошибок для 7 классов реальных и искусственных данных. Показано, что 4 функции инвариантны к дисбалансу данных. Описаны их достоинства и недостатки. | ru_RU |
dc.language.iso | ru | ru_RU |
dc.publisher | Бестпринт | ru_RU |
dc.subject | публикации ученых | ru_RU |
dc.subject | материалы конференций | ru_RU |
dc.subject | несбалансированные данные | ru_RU |
dc.subject | матрица ошибок | ru_RU |
dc.subject | функции оценки точности | ru_RU |
dc.subject | imbalanced data | ru_RU |
dc.subject | confusion matrx | ru_RU |
dc.subject | accuracy estimation functions | ru_RU |
dc.title | Как оценивать результаты классификации несбалансированных больших данных? | ru_RU |
dc.title.alternative | How to evaluate results of imbalanced Big Data classification | ru_RU |
dc.type | Article | ru_RU |
local.description.annotation | Classification of imbalanced big data is an important data mining problem. In mass screening, there is always a class imbalance in the ratio of sick and healthy. When determining, for example, the degree of cancer, it is the same. If there is a significant imbalance in the data, the classic Accuracy function does not take into account the peculiarities of small classes and may erroneously consider the best option with many errors in small classes. The article presents the results of a comparative analysis of 17 functions for quality assessment of classification on examples of confusion matrices for 7 classes of real and artificial data. It is shown that 4 functions are invariant to data imbalance. Their advantages and disadvantages are described. | - |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей (2021)
|