Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации

Труханович, И. А.; Парамонов, А. И.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/64360

Title:	Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации
Other Titles:	Research on the effectiveness of using ensemble methods of multidimensional text analysis in categorization tasks
Authors:	Труханович, И. А. Парамонов, А. И.
Keywords:	публикации ученых;ансамблевые архитектуры;категоризация документов;идентификация авторства;стилометрия;квантовые компоненты
Issue Date:	2026
Publisher:	Объединенный институт проблем информатики Национальной академии наук Беларуси
Citation:	Труханович, И. А. Исследование эффективности применения ансамблевых методов многоаспектного анализа текста в задачах категоризации = Research on the effectiveness of using ensemble methods of multidimensional text analysis in categorization tasks / И. А. Труханович, А. И. Парамонов // Информатика. – 2026. – Т. 23, № 2. – С. 7–20.
Abstract:	Цели. Цель представленной работы – экспериментальное исследование эффективности применения ансамблевых методов для многоаспектного анализа текстов в задачах категоризации документов на примере идентификации авторства. Особое внимание уделяется сравнению классических алгоритмов машинного обучения, их ансамблей и разработанной гибридной квантово-классической модели. Методы. В исследовании использованы метод опорных векторов, логистическая регрессия и случайный лес, а также ансамбль этих методов и гибридная модель авторской архитектуры. Предложенный гибридный подход сочетает синтаксический анализ на основе метода опорных векторов, семантический анализ с использованием трансформерной модели BERT и квантовый вариационный модуль. Эксперименты проводились на разных корпусах текстов на английском языке с варьированием по количеству авторов. Качество оценивалось по метрикам точности, полноты и F1-меры. Результаты. В серии экспериментов с небольшим числом авторов все модели показали высокую точность, при этом гибридная модель достигла наилучших результатов (F1-мера до 82,5 %). В экспериментах с большим числом авторов наблюдалось закономерное снижение качества, однако гибридная модель продемонстрировала лучшую устойчивость, превосходя классические ансамбли на всех корпусах. Наиболее значимый прирост точности зафиксирован на слож ном корпусе коротких текстов (блогов) с большим числом авторов. Заключение. Разработанная авторами гибридная квантово-классическая модель подтвердила свою эффективность для задач авторской атрибуции и может быть масштабирована для более широкого круга задач категоризации документов, особенно в условиях высокой размерности признаков и большого количества классов. Применение квантового модуля позволило выявить сложные нелинейные зависимости в данных, недоступные традиционным подходам. Полученные результаты открывают перспективы для практического использования предложенного подхода в системах анализа текстов, включая обработку коротких сообщений и обширные базы авторов. Дальнейшее развитие исследования связано с расширением набора признаков, оптимизацией архитектуры квантовых схем и адаптацией модели для работы в различных прикладных областях.
Alternative abstract:	Objectives. The aim of the work is to experimentally investigate the effectiveness of ensemble methods for multidimensional text analysis in document categorization tasks using the example of authorship identification. Particular attention is paid to comparing classical machine learning algorithms, their ensembles, and the developed hybrid quantum-classical model. Methods. The study uses support vector machines, logistic regression, and random forests, as well as an ensemble of these models and a hybrid model of the author's architecture. The proposed hybrid approach combines syntactic analysis based on the support vector method, semantic analysis using the BERT transformer model, and a quantum variational module. Experiments were conducted on different corpora of English texts with varying number of authors. Quality was assessed using accuracy, completeness, and F1-score metrics. Results. In a series of experiments with a small number of authors, all models showed high accuracy, with the hybrid model achieving the best results (F1 score up to 82.5%). In experiments with a large number of authors, a regular decrease in quality was observed, but the hybrid model demonstrated better stability, outperforming classical ensembles on all corpora. The most significant increase in accuracy was recorded on a complex corpus of short texts (blogs) with a large number of authors. Conclusion. The hybrid quantum-classical model developed by the authors has proven its effectiveness for author attribution tasks and can be scaled for a wider range of document categorization tasks, especially in conditions of high feature dimensionality and a large number of classes. The use of the quantum module made it possible to identify complex nonlinear dependencies in the data that are inaccessible to traditional approaches. The results obtained open up prospects for the practical use of the proposed approach in text analysis systems, including the processing of short messages and extensive author databases. Further development of the research is related to expanding the set of features, optimizing the architecture of quantum circuits, and adapting the model for use in various application areas.
URI:	https://libeldoc.bsuir.by/handle/123456789/64360
DOI:	https://doi.org/10.37661/1816-0301-2026-23-2-7-20
Appears in Collections:	Публикации в изданиях Республики Беларусь

Files in This Item:

File	Description	Size	Format
Truhanovich_Issledovanie.pdf		936.29 kB	Adobe PDF	View/Open

Show full item record Google Scholar