https://libeldoc.bsuir.by/handle/123456789/39457
Title: | Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера |
Other Titles: | Using perceptual hashing in finding similar messages by the example of sample from twitter |
Authors: | Захарик, Ю. А. Прокурат, Д. М. |
Keywords: | материалы конференций;перцептивный хэш;сравнение текстов;алгоритм Джаро;твиттер;perceptual hash;text comparison;cosine algorithm;Jaro's algorithm;twitter |
Issue Date: | 2020 |
Publisher: | Беспринт |
Citation: | Захарик, Ю. А. Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера / Ю. А. Захарик, Д. М. Прокурат // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сб. материалов VI Междунар. науч.-практ. конф., Минск, 20-21 мая 2020 года : в 3 ч. Ч. 2 / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 266–273. |
Abstract: | В данной работе была рассмотрена проблема нахождения схожих сообщений на основе выборки из Твиттера. Рассмотрены следующие алгоритмы: расстояние Левенштейна, нормализованное расстояние Левенштейна, Soundex, Phonex, алгоритм Джаро, Q-граммы, алгоритм LCS, алгоритм Metric LCS, SIFT4, алгоритм Дамерлау-Левенштейна, алгоритм косинусов и алгоритм подсчета букв. Было произведено сокращение выборки и упрощение твитов. Предложен оптимальный алгоритм решения задачи. |
Alternative abstract: | In this paper, the problem of finding similar messages based on a selection from Twitter was considered. The following algorithms are considered: Levenshtein distance, normalized Levenshtein distance, Soundex, Phonex, Jaro algorithm, Q-grams, LCS algorithm, Metric LCS algorithm, SIFT4, Damerlau-Levenshtein algorithm, cosine algorithm and letter counting algorithm. There was a reduction in sampling and simplification of tweets. An optimal algorithm for solving the problem is proposed. |
URI: | https://libeldoc.bsuir.by/handle/123456789/39457 |
ISBN: | 978-985-90533-9-9 |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020) |
File | Description | Size | Format | |
---|---|---|---|---|
Zakharik_Ispolzovaniye.pdf | 656.37 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.