Transformer-архитектура: как изменила подход к разработке систем выявления текстовых заимствований

Крез, К. С.; Кривоносова, М. А.; Шипуль, А. Р.; Гугалев, А. С.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Крез, К. С.	-
dc.contributor.author	Кривоносова, М. А.	-
dc.contributor.author	Шипуль, А. Р.	-
dc.contributor.author	Гугалев, А. С.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-05-06T11:36:25Z	-
dc.date.available	2026-05-06T11:36:25Z	-
dc.date.issued	2026	-
dc.identifier.citation	Transformer-архитектура: как изменила подход к разработке систем выявления текстовых заимствований = Transformer architecture: how it transformed the approach to developing text plagiarism detection systems / К. С. Крез, М. А. Кривоносова, А. Р. Шипуль, А. С. Гугалев // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 174–180.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/63584	-
dc.description.abstract	В статье рассматривается влияние архитектуры Transformer на развитие методов автоматического выявления текстовых заимствований в современных системах антиплагиата. Показано, что переход от лексико-статистических и строковых методов сравнения к контекстно-зависимому семантическому анализу способствует повышению качества обнаружения перефразированных и частично модифицированных заимствований. Проанализированы ограничения традиционных подходов, основанных на шинглах, n-граммах и статических эмбеддингах, а также раскрыта роль механизма self-attention в формировании контекстуальных представлений текстовых фрагментов. Особое внимание уделено применению архитектурных стратегий bi-encoder и cross-encoder в составе гибридного конвейера антиплагиатной проверки, обеспечивающего баланс между производительностью и точностью. Представлен упрощённый пример семантического сопоставления сегментов документа с локальным хранилищем и расчёта коэффициента семантических совпадений. Сделан вывод о целесообразности интеграции трансформерных моделей в многоуровневые системы антиплагиата, сочетающие точные лексические алгоритмы и семантический анализ.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	материалы конференций	en_US
dc.subject	Big Data	en_US
dc.subject	информационные системы	en_US
dc.subject	семантический поиск	en_US
dc.subject	сходство текстов	en_US
dc.subject	transformer-архитектура	en_US
dc.subject	машинное обучение	en_US
dc.subject	нейронные сети	en_US
dc.subject	естественный язык	en_US
dc.subject	алгоритмы сравнения текста	en_US
dc.title	Transformer-архитектура: как изменила подход к разработке систем выявления текстовых заимствований	en_US
dc.title.alternative	Transformer architecture: how it transformed the approach to developing text plagiarism detection systems	en_US
dc.type	Article	en_US
local.description.annotation	This article examines the impact of the Transformer architecture on the development of automated text plagiarism detection methods within modern anti-plagiarism systems. It demonstrates that the transition from lexico-statistical and string-based comparison methods to context-aware semantic analysis contributes to improved detection accuracy for paraphrased and partially modified instances of plagiarism. The limitations of traditional approaches - based on shingles, n-grams, and static embeddings - are analyzed, and the role of the self-attention mechanism in generating contextual representations of text fragments is elucidated. Particular attention is devoted to the application of bi-encoder and cross-encoder architectural strategies within a hybrid anti-plagiarism verification pipeline, designed to strike a balance between performance and accuracy. A simplified example is presented illustrating the semantic matching of document segments against a local repository and the subsequent calculation of a semantic similarity score. The article concludes that integrating Transformer- based models into multi-layered anti-plagiarism systems - which combine precise lexical algorithms with semantic analysis - is a highly advisable strategy.	en_US
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)