Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/48390
Full metadata record
DC FieldValueLanguage
dc.contributor.authorТырышкина, Е. С.-
dc.coverage.spatialМинск-
dc.date.accessioned2022-10-05T06:18:59Z-
dc.date.available2022-10-05T06:18:59Z-
dc.date.issued2022-
dc.identifier.citationТырышкина, Е. С. Ускорение объединения распределенных наборов данных по заданному критерию = Accelerate the joining of distributed datasets by a given criteria / Е. С. Тырышкина // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : VIII Международная научно-практическая конференция : сборник материалов VIII Международной научно-практической конференции, Минск, 11–12 мая 2022 года / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2022. – С. 53–56.ru_RU
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/48390-
dc.description.abstractВ данной работе исследуется вопрос снижения затрат машинного времени за счет разработки и внедрения метода ускорения операции соединения распределенных массивов данных по заданному критерию. Был проведен обзор литературы по архитектуре распределенных хранилищ данных и алгоритмам параллельных вычислений в результате которого выделены лимитирующие стадии, замедляющие процесс выполнения операции соединения, которые были исключены в предлагаемом в данной работе методе, на основе которого создан алгоритм и реализована библиотека, расширяющая функционал коммерческого программного продукта. Для оценки результата проведены экспериментальные исследования. Работа данного метода сравнивалась со стандартной библиотекой Spark SQL и показала сокращение времени на ~ 37% для данных размером 2 ТБ и ~ 47% для данных 7 ТБ.ru_RU
dc.language.isoruru_RU
dc.publisherБестпринтru_RU
dc.subjectматериалы конференцийru_RU
dc.subjectмашинное времяru_RU
dc.subjectвычислительные системыru_RU
dc.subjectхранилища данныхru_RU
dc.subjectMapReduceru_RU
dc.subjectApache Sparkru_RU
dc.subjectdistributed computing systemsru_RU
dc.subjectdata warehousesru_RU
dc.titleУскорение объединения распределенных наборов данных по заданному критериюru_RU
dc.title.alternativeAccelerate the joining of distributed datasets by a given criteriaru_RU
dc.typeArticleru_RU
local.description.annotationIn this paper, we study the issue of reducing the cost of computer time by developing and implementing a method for accelerating the operation of joining distributed datasets according to a given criterion. A review of the literature on the architecture of distributed data storages and parallel computing algorithms was carried out, as a result of which limiting stages were identified that slow down the process of performing a joining operation, which were excluded in the method proposed in this paper, on the basis of which an algorithm was created and a library was implemented that expands the functionality of a commercial software product. Experimental studies were carried out to evaluate the result. This method was compared with the Spark SQL standard library and showed ~37% time savings for 2TB data and ~47% for 7TB data.-
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2022)

Files in This Item:
File Description SizeFormat 
Tyryshkina_Uskoreniye.pdf740.88 kBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.