Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63502
Title: Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии
Other Titles: Complex statistical analysis of big data: integration of dimensionality reduction, clustering and regression methods
Authors: Полоско, Е. И.
Keywords: материалы конференций;Big Data;информационные системы;комплексный статистический анализ;кластерный анализ;регрессионное моделирование;энергоэффективность;машиностроение;предиктивная аналитика
Issue Date: 2026
Publisher: БГУИР
Citation: Полоско, Е. И. Комплексный статистический анализ больших данных: интеграция методов снижения размерности, кластеризации и регрессии = Complex statistical analysis of big data: integration of dimensionality reduction, clustering and regression methods / Е. И. Полоско // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 246–254.
Abstract: В статье рассматривается методология комплексного статистического анализа, объединяющая методы описательной статистики, корреляционного анализа, снижения размерности (метод главных компонент), кластеризации (K-Means) и регрессионного моделирования для обработки больших данных. Используется пошаговый подход к анализу данных, реализованный в среде Python и апробированный на имитированных производственных и энергетических данных ОАО «МАЗ» за 2021-2025 гг. Проведён сравнительный анализ регрессионных моделей прогнозирования энергопотребления; ансамблевые методы (Gradient Boosting) демонстрируют наивысшую точность (R2 = 0,873 и МАЕ = 3,61 МВт ч) по сравнению с линейными моделями. Практическая значимость работы заключается в универсальном подходе к анализу производственных данных для поддержки управленческих решений и оптимизации бизнес-процессов на промышленных предприятиях.
Alternative abstract: The article presents a methodology for complex statistical analysis that combines descriptive statistics, correlation analysis, dimensionality reduction (Principal Component Analysis), clustering (К-Means) and regression modelling for big data processing. A step-by-step data analysis approach is used, implemented in Python and tested on simulated production and energy data of OJSC “MAZ” for 2021-2025. A comparative analysis of regression models for forecasting energy consumption is carried out; ensemble methods (Gradient Boosting) demonstrate the highest accuracy (R2 = 0,873 и MAE = 3,61 МВт ч) compared to linear models. The practical significance of the study lies in a universal approach to the analysis of production data to support managerial decisionmaking and optimize business processes at industrial enterprises.
URI: https://libeldoc.bsuir.by/handle/123456789/63502
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:
File Description SizeFormat 
Polosko_Kompleksnyj.pdf5.07 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.