Ускорение объединения распределенных наборов данных по заданному критерию

Тырышкина, Е. С.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Тырышкина, Е. С.	-
dc.coverage.spatial	Минск	-
dc.date.accessioned	2022-10-05T06:18:59Z	-
dc.date.available	2022-10-05T06:18:59Z	-
dc.date.issued	2022	-
dc.identifier.citation	Тырышкина, Е. С. Ускорение объединения распределенных наборов данных по заданному критерию = Accelerate the joining of distributed datasets by a given criteria / Е. С. Тырышкина // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : VIII Международная научно-практическая конференция : сборник материалов VIII Международной научно-практической конференции, Минск, 11–12 мая 2022 года / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2022. – С. 53–56.	ru_RU
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/48390	-
dc.description.abstract	В данной работе исследуется вопрос снижения затрат машинного времени за счет разработки и внедрения метода ускорения операции соединения распределенных массивов данных по заданному критерию. Был проведен обзор литературы по архитектуре распределенных хранилищ данных и алгоритмам параллельных вычислений в результате которого выделены лимитирующие стадии, замедляющие процесс выполнения операции соединения, которые были исключены в предлагаемом в данной работе методе, на основе которого создан алгоритм и реализована библиотека, расширяющая функционал коммерческого программного продукта. Для оценки результата проведены экспериментальные исследования. Работа данного метода сравнивалась со стандартной библиотекой Spark SQL и показала сокращение времени на ~ 37% для данных размером 2 ТБ и ~ 47% для данных 7 ТБ.	ru_RU
dc.language.iso	ru	ru_RU
dc.publisher	Бестпринт	ru_RU
dc.subject	материалы конференций	ru_RU
dc.subject	машинное время	ru_RU
dc.subject	вычислительные системы	ru_RU
dc.subject	хранилища данных	ru_RU
dc.subject	MapReduce	ru_RU
dc.subject	Apache Spark	ru_RU
dc.subject	distributed computing systems	ru_RU
dc.subject	data warehouses	ru_RU
dc.title	Ускорение объединения распределенных наборов данных по заданному критерию	ru_RU
dc.title.alternative	Accelerate the joining of distributed datasets by a given criteria	ru_RU
dc.type	Article	ru_RU
local.description.annotation	In this paper, we study the issue of reducing the cost of computer time by developing and implementing a method for accelerating the operation of joining distributed datasets according to a given criterion. A review of the literature on the architecture of distributed data storages and parallel computing algorithms was carried out, as a result of which limiting stages were identified that slow down the process of performing a joining operation, which were excluded in the method proposed in this paper, on the basis of which an algorithm was created and a library was implemented that expands the functionality of a commercial software product. Experimental studies were carried out to evaluate the result. This method was compared with the Spark SQL standard library and showed ~37% time savings for 2TB data and ~47% for 7TB data.	-
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2022)