| Title: | Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии |
| Other Titles: | Complex statistical analysis of big data: integration of dimensionality reduction, clustering and regression methods |
| Authors: | Полоско, Е. И. |
| Keywords: | материалы конференций;Big Data;информационные системы;комплексный статистический анализ;кластерный анализ;регрессионное моделирование;энергоэффективность;машиностроение;предиктивная аналитика |
| Issue Date: | 2026 |
| Publisher: | БГУИР |
| Citation: | Полоско, Е. И. Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии = Complex statistical analysis of big data: integration of dimensionality reduction, clustering and regression methods / Е. И. Полоско // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 246–254. |
| Abstract: | В статье рассматривается методология комплексного статистического анализа,
объединяющая методы описательной статистики, корреляционного анализа, снижения размерности (метод
главных компонент), кластеризации (K-Means) и регрессионного моделирования для обработки больших
данных. Используется пошаговый подход к анализу данных, реализованный в среде Python и апробированный
на имитированных производственных и энергетических данных ОАО «МАЗ» за 2021-2025 гг. Проведён
сравнительный анализ регрессионных моделей прогнозирования энергопотребления; ансамблевые методы
(Gradient Boosting) демонстрируют наивысшую точность (R2 = 0,873 и МАЕ = 3,61 МВт ч) по сравнению с
линейными моделями. Практическая значимость работы заключается в универсальном подходе к анализу
производственных данных для поддержки управленческих решений и оптимизации бизнес-процессов на
промышленных предприятиях. |
| Alternative abstract: | The article presents a methodology for complex statistical analysis that combines descriptive statistics, correlation analysis, dimensionality reduction (Principal Component Analysis), clustering (К-Means) and regression modelling for big data processing. A step-by-step data analysis approach is used, implemented in Python and tested on simulated production and energy data of OJSC “MAZ” for 2021-2025. A comparative analysis of regression models for forecasting energy consumption is carried out; ensemble methods (Gradient Boosting) demonstrate the highest accuracy (R2 = 0,873 и MAE = 3,61 МВт ч) compared to linear models. The practical significance of the study lies in a universal approach to the analysis of production data to support managerial decisionmaking and optimize business processes at industrial enterprises. |
| URI: | https://libeldoc.bsuir.by/handle/123456789/63502 |
| Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)
|