论文解读:多主体补偿学习中的策略分离和价值匹配

主题:多主体补偿学习中的政策分散和价值匹配。

论文链接:https://arxiv.org/pdf/1903.06592

研究对象:多智能体协作系统

研究动机:现有的关于多智能体强化学习(MARL)的工作主要是通过集中的评论机制或智能体之间的通信来享受信息，从而提高学习效果。但是这些工作通常不研究如何通过在代理之间共享信息来解决维数灾难问题。

假设多智能体问题可以分解为一个多任务问题，使得每个智能体只能在整个状态空间的一个子集内搜索，而不用在整个状态空间内搜索。这种假设的好处是可以大大缩小系统的搜索空间，从而加快学习速度。

主要工作:

在上述假设的基础上，通过提炼和值匹配的方法整合同质智能体的知识，提出了一种新的多智能体actor-critic算法。

所谓同质多智能体，就是状态空间和动作空间相同的智能体。比如无人机和无人车是同质的智能体，无人机和无人车是异质的多智能体。

问题背景:

在多智能体系统中，智能体在相同的环境中独立行动，但同时，它们也影响彼此的决策。因此，如果将单智能体强化学习技术直接应用于多智能体，即所谓的独立学习，那么学习过程将是不稳定的。由于传统的单智能体强化学习假设外部环境的变化是稳定的，所以在多智能体系统中，任何一个智能体策略的变化都会影响到其他智能体的学习。因此，研究人员通常采用集中训练和分布式执行的架构来实现MARL。但是会有一个问题，就是当智能体的数量增加的时候，整个系统的状态空间和动作空间会成倍的增加，智能体的搜索空间也会变得特别大。

对于每个智能体，有些状态对最优策略的解没有贡献，所以不需要搜索整个状态空间。一个高效的搜索可以帮助agent缩短训练时间，但是现有的方法中没有解决这个问题的通用方法，这也是现在MARL研究中agent数量有限的原因之一。

解决方案:

在训练中，* * *在agents间享受经验数据等信息，通过政策升华的思想充分利用和学习新的策略。

首先，政策升华被提出来解决多任务强化学习的问题(MTRL)。论文链接:https://arxiv.org/pdf/1511.06295.因此，本文首先把单任务-MARL问题看作单代理人-MTRL问题，这样我们就可以用策略蒸馏法来寻找最优策略。

但是如何理解这个假设呢？比如A、B、C三个agents的任务是在最短的时间内到达指定位置L1、L2、L3，这就是单任务——MARL问题。现在这个问题被认为是一个代理A，有能力在最短的时间内到达L1，L2，L3。这是一个单一代理人——MTRL问题。

算法细节:

由于使用了策略提炼，本文使用了随机策略。对于连续运动问题，作者将软行动者批评算法从单个智能体扩展到多智能体。同时，actor的输出要通过softmax函数转换成概率分布的形式。

政策升华:？

蒸馏策略的损失函数是

？(1)

注意公式(1)都是概率分布，不是策略本身。只有变量从重放缓冲区中被采样，而不是变量。这是因为重放缓冲区可能不是最佳的，通过这种方式直接从重放缓冲区遍历动作空间中的所有动作，更容易找到最佳动作。每次提取后，所有代理策略都更新为(硬更新)。这样，代理和其他代理可以享受信息。

策略蒸馏的好处是，即使一个智能体的某个状态没有被采样，但是其他智能体采样了，那么这个状态的信息就可以通过其他智能体的策略蒸馏间接传递给这个智能体。

价值匹配:？

仅仅通过提炼策略来更新策略是不够的。如果在策略学习中加入蒸馏，用传统方法学习价值函数，显然会有区别。因此，调整价值函数也是必要的。

需要指出的是，对于具有合作任务的同质多智能体，它们的最佳策略是相同的，因为它们的状态空间和行动空间是一致的，并且它们共享一个奖励。基于这一前提，作者提出了值匹配的方法来缩小搜索空间。

在传统的集中训练中，其价值函数的输入是所有agents的观察和动作，比如sum。而这些输入的顺序一般是固定的，比如对于状态值函数，就会满足。但根据文中的设定，即多智能体是同质的，且* * *享有一个奖励函数，所以价值函数输入的顺序并不影响具体的价值输出。

比如上图中的两个智能体，假设状态A()的价值函数已经学习为；状态B是状态A的对称形式，根据同质智能体合作任务假设，这两个状态的价值函数应该相等，即。扩展到有代理的情况，令人满意

(2)

其中所有顺序排列被表示为一个集合。这样，一旦学习了状态的值函数，并以此作为监督信息来训练值匹配评估网络，则不同组合的对应对称状态值将是可用的。政策的分离和批评家的价值匹配构成了DVM。

为了训练这个新的价值函数(蒸馏价值函数)，本文使用了均方误差损失函数(MSE)。

。？(3)

其中表示匹配值函数的参数。

类似于提取策略，匹配值函数可以表示状态空间中的知识，而无需遍历所有状态。本文还指出，许多MARL方法以Q值函数作为评判标准，只要状态和动作一致，上述方法也适用。

多主体软演员-评论家(SAC):

演员评论(AC)大家都很熟悉，那么什么是软演员评论呢？

SAC最早出现在ICML2018，论文链接为http://proceedings . MLR . press/v 80/haarnoja 18b/haarnoja 18b . pdf。

SAC的优化目标不仅是期望累积报酬最大化，而且是熵最大化，有利于平衡agents的学习和探索。即使动作的选择足够随机，任务的学习也是可以保证的。SAC的actor输出随机变量，这也是本文选择使用SAC框架的原因。然后，作者将SAC扩展到多智能体，提出了MA-SAC，并加入了前面提到的DVM。

文章指出，策略网络是用策略提取的方法训练的，因此其参与者网络的输出是概率分布。对于MADDPG等确定性策略的算法，由于策略网络输出连续的动作值，无法计算KL损失。

本文针对连续运动控制问题，策略函数输出一个具有一定均值和方差的高斯分布，然后从这个高斯分布中采样得到一个连续的运动值。

本文提出的算法流程如下:

实验环境:

总结:

本文提出的DVM方法主要用于同构协作多智能体之间的信息共享和传输。通过学习分离蒸馏策略和蒸馏值函数，将多智能体单任务问题视为单智能体多任务问题。作者认为这种方法可以有效地缩小智能体的状态搜索空间，从而加快学习速度。即使一个代理没有遇到某些状态，只要其他代理遇到过。蒸馏策略可以将其他智能体学习到的知识整合成一个策略，从而实现智能体之间的知识共享。对于连续动作无法计算KL损失的问题，作者使用MA-SAC框架实现MARL，以便继续使用DVM进行学习。