Алгоритмы сравнения текстовой информации

Крез, К. С.; Шнейдеров, Е. Н.; Голушко, В. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63578

Title:	Алгоритмы сравнения текстовой информации
Other Titles:	Algorithms for comparing text information
Authors:	Крез, К. С. Шнейдеров, Е. Н. Голушко, В. И.
Keywords:	материалы конференций;Big Data;информационные системы;алгоритмы сравнения;семантический анализ;текстовая информация;обработка текста
Issue Date:	2026
Publisher:	БГУИР
Citation:	Крез, К. С. Алгоритмы сравнения текстовой информации = Algorithms for comparing text information / К. С. Крез, Е. Н. Шнейдеров, В. И. Голушко // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 181–187.
Abstract:	В статье рассматриваются алгоритмы сравнения текстовой информации, применяемые в задачах обработки естественного языка. Выполнен обзор подходов, ориентированных на анализ лексического, структурного и семантического сходства текстов, включая статистические методы, расстояние Левенштейна, алгоритмы локально-чувствительного хеширования и фонетические подходы. В статье рассмотрены архитектуры, принципы работы и области применения моделей Word2Vec, GloVe, FastText, BERT и Doc2Vec. На основании проведённого анализа установлено, что выбор оптимального алгоритма зависит от требований к точности, вычислительной эффективности и специфики обрабатываемых данных. Особо отмечается высокая эффективность модели BERT в задачах сравнения текстов.
Alternative abstract:	This article examines algorithms for comparing textual information used in natural language processing tasks. It provides an overview of approaches focused on analyzing the lexical, structural, and semantic similarity of texts, including statistical methods, Levenshtein distance, locality-sensitive hashing algorithms, and phonetic approaches. The article discusses the architectures, operating principles, and application areas of the Word2Vec, GloVe, FastText, BERT, and Doc2Vec models. Based on the conducted analysis, it is established that the selection of the optimal algorithm depends on requirements regarding accuracy, computational efficiency, and the specific characteristics of the data being processed. Particular emphasis is placed on the high effectiveness of the BERT model in text comparison tasks.
URI:	https://libeldoc.bsuir.by/handle/123456789/63578
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:

File	Description	Size	Format
Krez_Algoritmy.pdf		3.44 MB	Adobe PDF	View/Open

Show full item record Google Scholar