Влияние методов обучения с подкреплением на стратегию поведения автономных агентов

Гулис, А. А.; Калугина, М. А.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Гулис, А. А.	-
dc.contributor.author	Калугина, М. А.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-04-29T10:36:16Z	-
dc.date.available	2026-04-29T10:36:16Z	-
dc.date.issued	2026	-
dc.identifier.citation	Гулис, А. А. Влияние методов обучения с подкреплением на стратегию поведения автономных агентов = Investigation of the impact of reinforcement learning methods on autonomous agent behavior strategies / А. А. Гулис, М. А. Калугина // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 195–203.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/63486	-
dc.description.abstract	В статье приведены результаты исследования влияния различных архитектур и алгоритмов глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) на формирование стратегий поведения автономных агентов. В качестве испытательной среды используется актуальный клиент многопользовательской игры Tanks Blitz. Рассматривается мультиагентное кооперативно-соревновательное взаимодействие в формате «2 на 2» с использованием парадигмы обучения агента против собственных исторических версий (Self-Play). Обучение в данной среде осложнено частичной наблюдаемостью и ограничениями пропускной способности. Предложена распределенная архитектура сбора данных и проанализированы алгоритмы РРО, Discrete SAC (DSAC), Stable DSAC (SDSAC), R2D2 и гибридная модель Hybrid SAC. Выявлены феномены «взлома вознаграждения» (reward hacking), взрыва температурного коэффициента, коллапса энтропии, а также предложены конкретные методы их устранения.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	материалы конференций	en_US
dc.subject	Big Data	en_US
dc.subject	информационные системы	en_US
dc.subject	глубокое обучение	en_US
dc.subject	автономные агенты	en_US
dc.subject	машинное обучение	en_US
dc.subject	стратегия поведения	en_US
dc.subject	алгоритмы обучения	en_US
dc.title	Влияние методов обучения с подкреплением на стратегию поведения автономных агентов	en_US
dc.title.alternative	Investigation of the impact of reinforcement learning methods on autonomous agent behavior strategies	en_US
dc.type	Article	en_US
local.description.annotation	The article presents the results of a study on how various deep reinforcement learning (DRL) architectures and algorithms affect the development of behavioral strategies in autonomous agents. The current client of the multiplayer game Tanks Blitz is used as the test environment. We consider multi-agent cooperative-competitive interaction in a «2 vs 2» setting using the self-play paradigm, where an agent is trained against its own historical versions. Training in this environment is complicated by partial observability and bandwidth limitations. A distributed data-collection architecture is proposed, and the PPO, Discrete SAC (DSAC), Stable DSAC (SDSAC), R2D2, and a hybrid Hybrid SAC model are analyzed. We identify the phenomena of reward hacking, temperature coefficient explosion, and entropy collapse, and propose specific methods to mitigate them.	en_US
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)