Влияние методов обучения с подкреплением на стратегию поведения автономных агентов

Гулис, А. А.; Калугина, М. А.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63486

Title:	Влияние методов обучения с подкреплением на стратегию поведения автономных агентов
Other Titles:	Investigation of the impact of reinforcement learning methods on autonomous agent behavior strategies
Authors:	Гулис, А. А. Калугина, М. А.
Keywords:	материалы конференций;Big Data;информационные системы;глубокое обучение;автономные агенты;машинное обучение;стратегия поведения;алгоритмы обучения
Issue Date:	2026
Publisher:	БГУИР
Citation:	Гулис, А. А. Влияние методов обучения с подкреплением на стратегию поведения автономных агентов = Investigation of the impact of reinforcement learning methods on autonomous agent behavior strategies / А. А. Гулис, М. А. Калугина // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 195–203.
Abstract:	В статье приведены результаты исследования влияния различных архитектур и алгоритмов глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) на формирование стратегий поведения автономных агентов. В качестве испытательной среды используется актуальный клиент многопользовательской игры Tanks Blitz. Рассматривается мультиагентное кооперативно-соревновательное взаимодействие в формате «2 на 2» с использованием парадигмы обучения агента против собственных исторических версий (Self-Play). Обучение в данной среде осложнено частичной наблюдаемостью и ограничениями пропускной способности. Предложена распределенная архитектура сбора данных и проанализированы алгоритмы РРО, Discrete SAC (DSAC), Stable DSAC (SDSAC), R2D2 и гибридная модель Hybrid SAC. Выявлены феномены «взлома вознаграждения» (reward hacking), взрыва температурного коэффициента, коллапса энтропии, а также предложены конкретные методы их устранения.
Alternative abstract:	The article presents the results of a study on how various deep reinforcement learning (DRL) architectures and algorithms affect the development of behavioral strategies in autonomous agents. The current client of the multiplayer game Tanks Blitz is used as the test environment. We consider multi-agent cooperative-competitive interaction in a «2 vs 2» setting using the self-play paradigm, where an agent is trained against its own historical versions. Training in this environment is complicated by partial observability and bandwidth limitations. A distributed data-collection architecture is proposed, and the PPO, Discrete SAC (DSAC), Stable DSAC (SDSAC), R2D2, and a hybrid Hybrid SAC model are analyzed. We identify the phenomena of reward hacking, temperature coefficient explosion, and entropy collapse, and propose specific methods to mitigate them.
URI:	https://libeldoc.bsuir.by/handle/123456789/63486
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:

File	Description	Size	Format
Gulis_Vliyanie.pdf		1.6 MB	Adobe PDF	View/Open

Show full item record Google Scholar