Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера

Захарик, Ю. А.; Прокурат, Д. М.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Захарик, Ю. А.	-
dc.contributor.author	Прокурат, Д. М.	-
dc.date.accessioned	2020-07-09T14:31:45Z	-
dc.date.available	2020-07-09T14:31:45Z	-
dc.date.issued	2020	-
dc.identifier.citation	Захарик, Ю. А. Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера / Ю. А. Захарик, Д. М. Прокурат // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник материалов VI Международной научно-практической конференции, Минск, 20-21 мая 2020 года : в 3 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск : Бестпринт, 2020. – С. 266–273.	ru_RU
dc.identifier.isbn	978-985-90533-9-9	-
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/39457	-
dc.description.abstract	В данной работе была рассмотрена проблема нахождения схожих сообщений на основе выборки из Твиттера. Рассмотрены следующие алгоритмы: расстояние Левенштейна, нормализованное расстояние Левенштейна, Soundex, Phonex, алгоритм Джаро, Q-граммы, алгоритм LCS, алгоритм Metric LCS, SIFT4, алгоритм Дамерлау-Левенштейна, алгоритм косинусов и алгоритм подсчета букв. Было произведено сокращение выборки и упрощение твитов. Предложен оптимальный алгоритм решения задачи.	ru_RU
dc.language.iso	ru	ru_RU
dc.publisher	Беспринт	ru_RU
dc.subject	материалы конференций	ru_RU
dc.subject	перцептивный хэш	ru_RU
dc.subject	сравнение текстов	ru_RU
dc.subject	алгоритм Джаро	ru_RU
dc.subject	твиттер	-
dc.subject	perceptual hash	-
dc.subject	text comparison	-
dc.subject	cosine algorithm	-
dc.subject	Jaro's algorithm	-
dc.subject	twitter	-
dc.title	Использование перцептивного хэша в нахождении необходимых сообщений на примере выборки из твиттера	ru_RU
dc.title.alternative	Using perceptual hashing in finding similar messages by the example of sample from twitter	-
dc.type	Article	ru_RU
local.description.annotation	In this paper, the problem of finding similar messages based on a selection from Twitter was considered. The following algorithms are considered: Levenshtein distance, normalized Levenshtein distance, Soundex, Phonex, Jaro algorithm, Q-grams, LCS algorithm, Metric LCS algorithm, SIFT4, Damerlau-Levenshtein algorithm, cosine algorithm and letter counting algorithm. There was a reduction in sampling and simplification of tweets. An optimal algorithm for solving the problem is proposed.	-
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : материалы конференции (2020)