DC Field | Value | Language |
dc.contributor.author | Тырышкина, Е. С. | - |
dc.coverage.spatial | Минск | - |
dc.date.accessioned | 2022-10-05T06:18:59Z | - |
dc.date.available | 2022-10-05T06:18:59Z | - |
dc.date.issued | 2022 | - |
dc.identifier.citation | Тырышкина, Е. С. Ускорение объединения распределенных наборов данных по заданному критерию = Accelerate the joining of distributed datasets by a given criteria / Е. С. Тырышкина // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : VIII Международная научно-практическая конференция : сборник материалов VIII Международной научно-практической конференции, Минск, 11–12 мая 2022 года / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. А. Богуш [и др.]. – Минск, 2022. – С. 53–56. | ru_RU |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/48390 | - |
dc.description.abstract | В данной работе исследуется вопрос снижения затрат машинного времени за счет разработки и внедрения метода ускорения операции соединения распределенных массивов данных по заданному критерию. Был проведен обзор литературы по архитектуре распределенных хранилищ данных и
алгоритмам параллельных вычислений в результате которого выделены лимитирующие стадии, замедляющие процесс выполнения операции соединения, которые были исключены в предлагаемом в данной работе методе, на основе которого создан алгоритм и реализована библиотека, расширяющая функционал коммерческого программного продукта. Для оценки результата проведены экспериментальные исследования. Работа данного метода сравнивалась со стандартной библиотекой Spark SQL и показала сокращение времени на ~ 37% для данных размером 2 ТБ и ~ 47% для данных 7 ТБ. | ru_RU |
dc.language.iso | ru | ru_RU |
dc.publisher | Бестпринт | ru_RU |
dc.subject | материалы конференций | ru_RU |
dc.subject | машинное время | ru_RU |
dc.subject | вычислительные системы | ru_RU |
dc.subject | хранилища данных | ru_RU |
dc.subject | MapReduce | ru_RU |
dc.subject | Apache Spark | ru_RU |
dc.subject | distributed computing systems | ru_RU |
dc.subject | data warehouses | ru_RU |
dc.title | Ускорение объединения распределенных наборов данных по заданному критерию | ru_RU |
dc.title.alternative | Accelerate the joining of distributed datasets by a given criteria | ru_RU |
dc.type | Article | ru_RU |
local.description.annotation | In this paper, we study the issue of reducing the cost of computer time by developing and implementing a method for accelerating the operation of joining distributed datasets according to a given criterion. A review of the literature on the architecture of distributed data storages and parallel computing algorithms was carried out, as a result of which limiting stages were identified that slow down the process of performing a joining operation, which were excluded in the method proposed in this paper, on the basis of which an algorithm was created and a library was implemented that expands the functionality of a commercial software product. Experimental studies were
carried out to evaluate the result. This method was compared with the Spark SQL standard library and showed ~37% time savings for 2TB data and ~47% for 7TB data. | - |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2022)
|