Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии

Полоско, Е. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63502

Title:	Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии
Other Titles:	Complex statistical analysis of big data: integration of dimensionality reduction, clustering and regression methods
Authors:	Полоско, Е. И.
Keywords:	материалы конференций;Big Data;информационные системы;комплексный статистический анализ;кластерный анализ;регрессионное моделирование;энергоэффективность;машиностроение;предиктивная аналитика
Issue Date:	2026
Publisher:	БГУИР
Citation:	Полоско, Е. И. Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии = Complex statistical analysis of big data: integration of dimensionality reduction, clustering and regression methods / Е. И. Полоско // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 238–245.
Abstract:	В статье рассматривается методология комплексного статистического анализа, объединяющая методы описательной статистики, корреляционного анализа, снижения размерности (метод главных компонент), кластеризации (K-Means) и регрессионного моделирования для обработки больших данных. Используется пошаговый подход к анализу данных, реализованный в среде Python и апробированный на имитированных производственных и энергетических данных ОАО «МАЗ» за 2021-2025 гг. Проведён сравнительный анализ регрессионных моделей прогнозирования энергопотребления; ансамблевые методы (Gradient Boosting) демонстрируют наивысшую точность (R2 = 0,873 и МАЕ = 3,61 МВт ч) по сравнению с линейными моделями. Практическая значимость работы заключается в универсальном подходе к анализу производственных данных для поддержки управленческих решений и оптимизации бизнес-процессов на промышленных предприятиях.
Alternative abstract:	The article presents a methodology for complex statistical analysis that combines descriptive statistics, correlation analysis, dimensionality reduction (Principal Component Analysis), clustering (К-Means) and regression modelling for big data processing. A step-by-step data analysis approach is used, implemented in Python and tested on simulated production and energy data of OJSC “MAZ” for 2021-2025. A comparative analysis of regression models for forecasting energy consumption is carried out; ensemble methods (Gradient Boosting) demonstrate the highest accuracy (R2 = 0,873 и MAE = 3,61 МВт ч) compared to linear models. The practical significance of the study lies in a universal approach to the analysis of production data to support managerial decisionmaking and optimize business processes at industrial enterprises.
URI:	https://libeldoc.bsuir.by/handle/123456789/63502
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:

File	Description	Size	Format
Polosko_Kompleksnyj.pdf		2.25 MB	Adobe PDF	View/Open

Show full item record Google Scholar