NeurIPS 2022 | 基于分队合作的多智能体q值学习方法

admin 2024-12-23 126人围观 ,发现154个评论

导读

本文是NeurIPS2022入选论文MultiagentQ-learningwithSub-teamCoordination的解读。本文得到了华为诺亚方舟实验室的支持,同时也得到了北京大学前沿计算研究中心邓小铁教授、阿尔伯塔大学教授和伦敦学院大学汪军老师的指导与帮助。

文章探究了分队组织结构在多智能体值分解问题上的应用,设计了分队组织结构对应的值分解网络,得出了其在值分解问题上具有层级结构的性质,并在对应多智能体场景中验证了算法效果。

01

问题背景

在多智能体合作问题的训练求解中,可以通过值分解方法,将整体收益函数分解为单个智能体单独的值函数,从而指导每个智能体作出决策。每个智能体在得到分解的函数后,通常贪心地选取智能体值函数最大的策略,因此值分解通常要求保证IGM性质[1]:分解后的贪心解是整体的最优解。

现有值分解方法大体有两类:一类是借用单调函数进行分解,这类方法通常容易出现相对过拟合的问题,无法表征最优解方案;另一类是借助优势函数进行间接分解,但现有方法需要将联合动作当作原子项引入分解过程,这一分解能很好的表征解方案,但忽略了智能体个体之间的结构关系。

02

值分解与分队

在多智能体合作博弈中,通常使用表示折现后当前整体收益,用表示单个智能体i的值函数,其实为联合历史信息。在值分解中一般借助混合函数f沟通和:

在这里由于中心化训练时可以得到具体的状态s,可以直接使用状态s代替联合历史信息[2]。例如在QMIX论文[3]中,就假设

在QPLEX论文[4]中,借助值函数V优势函数A将Q函数分解为Q=V+A,从而在优势函数和上进行分解:

我们借助分队结构在优势函数上对分解进行细化,将整体值先分解为分队ST的信誉,之后再分配到智能体上。这一分解我们称为QSCAN。当我们考察所有大小为k的分队时,分解为:

这里是由合作模块得到的权重系数。

03

合作层级与模块设计

将上述分解进行数学上的延拓后,我们可以得到一类基于分队的分解,,,。其中对于表征能力,我们有。通过数学分析,我们可以得到如下的层级结构:

其中最内层等价于基于单调函数的值分解,最外层等价于所有满足IGM性质的分解。

A图

B图

针对不同需求我们设计了两类合作模块,A图是基于枚举方法的QPAIR模块,B图的是借助self-attention灵活表征分队大小的QSCAN模块。

04

实验结果

C图

D图

在Predator-prey[5](C图)和Switch[6](D图)两个多智能体合作环境中,我们的方法和现有的方法进行对比。实验结果表明我们的方法优于现有方法,说明分队结构在多智能体强化学习中有益于寻找最优解。

参考文献

[1]Son,K.,Kim,D.,Kang,,Hostallero,,Yi,Y.(2019,May).Qtran:Learningtofactorizew().PMLR.

[2]Foerster,J.,Farquhar,G.,Afouras,T.,Nardelli,N.,Whiteson,S.(2018,April).(,).

[3]Rashid,T.,Samvelyan,M.,Schroeder,C.,Farquhar,G.,Foerster,J.,Whiteson,S.(2018,July).Qmix:Monotonicva().PMLR.

[4]Wang,J.,Ren,Z.,Liu,T.,Yu,Y.,Zhang,C.(2020).Qplex::2008.01062.

[5]Böhmer,W.,Kurin,V.,Whiteson,S.(2020,November).().PMLR.

[6]Koul,A.(2019).ma-gym::(accessedon1September2021).

PKUdaGAME

猜你喜欢
    不容错过