Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63486
Full metadata record
DC FieldValueLanguage
dc.contributor.authorГулис, А. А.-
dc.contributor.authorКалугина, М. А.-
dc.coverage.spatialМинскen_US
dc.date.accessioned2026-04-29T10:36:16Z-
dc.date.available2026-04-29T10:36:16Z-
dc.date.issued2026-
dc.identifier.citationГулис, А. А. Влияние методов обучения с подкреплением на стратегию поведения автономных агентов = Investigation of the impact of reinforcement learning methods on autonomous agent behavior strategies / А. А. Гулис, М. А. Калугина // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш, С. К. Дик, Т. В. Казак. – Минск, 2026. – С. 198–206.en_US
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/63486-
dc.description.abstractВ статье приведены результаты исследования влияния различных архитектур и алгоритмов глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) на формирование стратегий поведения автономных агентов. В качестве испытательной среды используется актуальный клиент многопользовательской игры Tanks Blitz. Рассматривается мультиагентное кооперативно-соревновательное взаимодействие в формате «2 на 2» с использованием парадигмы обучения агента против собственных исторических версий (Self-Play). Обучение в данной среде осложнено частичной наблюдаемостью и ограничениями пропускной способности. Предложена распределенная архитектура сбора данных и проанализированы алгоритмы РРО, Discrete SAC (DSAC), Stable DSAC (SDSAC), R2D2 и гибридная модель Hybrid SAC. Выявлены феномены «взлома вознаграждения» (reward hacking), взрыва температурного коэффициента, коллапса энтропии, а также предложены конкретные методы их устранения.en_US
dc.language.isoruen_US
dc.publisherБГУИРen_US
dc.subjectматериалы конференцийen_US
dc.subjectBig Dataen_US
dc.subjectинформационные системыen_US
dc.subjectглубокое обучениеen_US
dc.subjectавтономные агентыen_US
dc.subjectмашинное обучениеen_US
dc.subjectстратегия поведенияen_US
dc.subjectалгоритмы обученияen_US
dc.titleВлияние методов обучения с подкреплением на стратегию поведения автономных агентовen_US
dc.title.alternativeInvestigation of the impact of reinforcement learning methods on autonomous agent behavior strategiesen_US
dc.typeArticleen_US
local.description.annotationThe article presents the results of a study on how various deep reinforcement learning (DRL) architectures and algorithms affect the development of behavioral strategies in autonomous agents. The current client of the multiplayer game Tanks Blitz is used as the test environment. We consider multi-agent cooperative-competitive interaction in a «2 vs 2» setting using the self-play paradigm, where an agent is trained against its own historical versions. Training in this environment is complicated by partial observability and bandwidth limitations. A distributed data-collection architecture is proposed, and the PPO, Discrete SAC (DSAC), Stable DSAC (SDSAC), R2D2, and a hybrid Hybrid SAC model are analyzed. We identify the phenomena of reward hacking, temperature coefficient explosion, and entropy collapse, and propose specific methods to mitigate them.en_US
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:
File Description SizeFormat 
Gulis_Vliyanie.pdf2.92 MBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.