Нормализация данных в машинном обучении

Старовойтов, В. В.; Голуб, Ю. И.; Starovoitov, V. V.; Golub, Y. I.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/45960

Title:	Нормализация данных в машинном обучении
Other Titles:	Data normalization in machine learning
Authors:	Старовойтов, В. В. Голуб, Ю. И. Starovoitov, V. V. Golub, Y. I.
Keywords:	публикации ученых;машинное обучение;кластеризация;классификация объектов;object classification;clustering;machine learning
Issue Date:	2021
Publisher:	ОИПИ НАН Беларуси
Citation:	Старовойтов, В. В. Нормализация данных в машинном обучении / Старовойтов В. В., Голуб Ю. И. // Информатика. – 2021. – Т. 18, № 3. – С. 83–96. – DOI : https://doi.org/10.37661/1816-0301-2021-18-3-83-96.
Abstract:	В задачах машинного обучения исходные данные часто заданы в разных единицах измерения и типах шкал. Такие данные следует преобразовывать в единое представление путем их нормализации или стандартизации. В работе показана разница между этими операциями. Систематизированы основные типы шкал, операции над данными, представленными в этих шкалах, и основные варианты нормализации функций. Предложена новая шкала частей и приведены примеры использования нормализации данных для их более корректного анализа. На сегодняшний день универсального метода нормализации данных, превосходящего другие методы, не существует, но нормализация исходных данных позволяет повысить точность их классификации. Кластеризацию данных методами, использующими функции расстояния, лучше выполнять после преобразования всех признаков в единую шкалу. Результаты классификации и кластеризации разными методами можно сравнивать различными оценочными функциями, которые зачастую имеют разные диапазоны значений. Для выбора наиболее точной функции можно выполнить нормализацию нескольких из них и сравнить оценки в единой шкале. Правила разделения признаков древовидных классификаторов инвариантны к шкалам количественных признаков. Они используют только операцию сравнения. Возможно, благодаря этому свойству классификатор типа «случайный лес» в результате многочисленных экспериментов признан одним из лучших при анализе данных разной природы.
Alternative abstract:	In machine learning, the input data is often given in different dimensions. As a result of the scientific papers review, it is shown that the initial data described in different types of scales and units of measurement should be converted into a single representation by normalization or standardization. The difference between these operations is shown. The paper systematizes the basic operations presented in these scales, as well as the main variants of the function normalization. A new scale of parts is suggested and examples of the data normalization for correct analysis are given. Analysis of publications has shown that there is no universal method of data normalization, but normalization of the initial data makes it possible to increase the accuracy of their classification. It is better to perform data clustering by methods using distance functions after converting all features into a single scale. The results of classification and clustering by different methods can be compared with different scoring functions, which often have different ranges of values. To select the most accurate function, it is reasonable to normalize several functions and to compare their estimates on a single scale. The rules for separating features of tree-like classifiers are invariant to scales of quantitative features. Only comparison operation is used. Perhaps due to this property, the random forest classifier, as a result of numerous experiments, is recognized as one of the best classifiers in the analysis of data of different nature.
URI:	https://libeldoc.bsuir.by/handle/123456789/45960
Appears in Collections:	Публикации в изданиях Республики Беларусь

Files in This Item:

File	Description	Size	Format
Starovoytov_Normalizatsiya.pdf		1.23 MB	Adobe PDF	View/Open

Show full item record Google Scholar