Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/39428
Title: Система анализа качества текстовых коллекций
Other Titles: Text collection quality assurance system
Authors: Калоша, А. Л.
Медунецкий, М. А.
Хоронеко, М. П.
Александров, А. А.
Гридасов, А. И.
Нестеренков, С. Н.
Keywords: материалы конференций;Big Data;машинное обучение;нейронные сети;machine learning;neural networks
Issue Date: 2020
Publisher: Беспринт
Citation: Калоша, А. Л. Система анализа качества текстовых коллекций / А. Л. Калоша [и др.] // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня: сб. материалов VI Междунар. науч.-практ. конф., Минск, 20-21 мая 2020 года: в 3 ч. Ч. 2 / редкол.: В. А. Богуш [и др.]. – Минск: Бестпринт, 2020. – С. 369 – 375.
Abstract: Цель данной работы заключается в создании системы для прогнозирования популярности публикаций. В данной системе используется нейронная сеть, которая обучена на наборе метрик, описывающих качество и популярность публикаций. В качестве набора метрик используется количество лайков, просмотров и репостов. Обучение нейронной сети производилось на 100 000 текстов. В результате обучения нейронная сеть способна предсказать количество просмотров с точностью в 75%. Верным считается ответ, находящийся в диапазоне +/-200 000 просмотров от ответа. Максимальное количество просмотров при обучении составляло 48 миллионов. Коэффициент корреляции для массивов ответов и предсказанных значений составляет 0,33. Это означает, что между входными и выходными данными есть линейная зависимость. Увеличив размер обучающей выборки, или подобрав более точно гиперпараметры нейронной сети, можно увеличить точность системы.
Alternative abstract: The purpose of this work is to create a system for forecasting the popularity of publications. This system uses a neural network, which is trained on a set of metrics describing the quality and popularity of publications. The number of likes, views and repostings is used as a set of metrics. The neural network was trained for 100,000 texts. As a result of training the neural network is able to predict the number of views with the accuracy of 75%. The answer in the range of +/-200 000 views of the answer is considered correct. The maximum number of views during training was 48 million. The correlation coefficient for answer arrays and predicted values is 0.33. This means that there is a linear relationship between input and output data. By increasing the size of the learning sample, or by more accurately selecting the hyperparameters of the neural network, you can increase accuracy of the system.
URI: https://libeldoc.bsuir.by/handle/123456789/39428
ISBN: 978-985-90533-9-9
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)

Files in This Item:
File Description SizeFormat 
Kalosha_Sistema.pdf1.14 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.