DC Field | Value | Language |
dc.contributor.author | Захарик, Ю. А. | - |
dc.contributor.author | Прокурат, Д. М. | - |
dc.date.accessioned | 2020-07-09T14:31:45Z | - |
dc.date.available | 2020-07-09T14:31:45Z | - |
dc.date.issued | 2020 | - |
dc.identifier.citation | Захарик, Ю. А. Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера / Ю. А. Захарик, Д. М. Прокурат // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сб. материалов VI Междунар. науч.-практ. конф., Минск, 20-21 мая 2020 года : в 3 ч. Ч. 2 / редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 266–273. | ru_RU |
dc.identifier.isbn | 978-985-90533-9-9 | - |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/39457 | - |
dc.description.abstract | В данной работе была рассмотрена проблема нахождения схожих сообщений на основе выборки из Твиттера. Рассмотрены следующие алгоритмы: расстояние Левенштейна, нормализованное расстояние Левенштейна, Soundex, Phonex, алгоритм Джаро, Q-граммы, алгоритм LCS, алгоритм Metric LCS, SIFT4, алгоритм Дамерлау-Левенштейна, алгоритм косинусов и алгоритм подсчета букв. Было произведено сокращение выборки и упрощение твитов. Предложен оптимальный алгоритм решения задачи. | ru_RU |
dc.language.iso | ru | ru_RU |
dc.publisher | Беспринт | ru_RU |
dc.subject | материалы конференций | ru_RU |
dc.subject | перцептивный хэш | ru_RU |
dc.subject | сравнение текстов | ru_RU |
dc.subject | алгоритм Джаро | ru_RU |
dc.subject | твиттер | - |
dc.subject | perceptual hash | - |
dc.subject | text comparison | - |
dc.subject | cosine algorithm | - |
dc.subject | Jaro's algorithm | - |
dc.subject | twitter | - |
dc.title | Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера | ru_RU |
dc.title.alternative | Using perceptual hashing in finding similar messages by the example of sample from twitter | - |
dc.type | Article | ru_RU |
local.description.annotation | In this paper, the problem of finding similar messages based on a selection from Twitter was considered. The following algorithms are considered: Levenshtein distance, normalized Levenshtein distance, Soundex, Phonex, Jaro algorithm, Q-grams, LCS algorithm, Metric LCS algorithm, SIFT4, Damerlau-Levenshtein algorithm, cosine algorithm and letter counting algorithm. There was a reduction in sampling and simplification of tweets. An optimal algorithm for solving the problem is proposed. | - |
Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)
|