多智能体系统

多智能体系统

多智能体系统 (Multi-Agent System,缩写MAS) 中包含 m 个智能体,智能体共享环境,智能体之间会相互影响。智能体之间是如何相互影响的呢?一个智能体的动作会改变环境状态,从而影响其余所有智能体。

多智能体系统有四种常见设定:合作关系 (Fully Cooperative)、竞争关系 (Fully Competitive)、合作竞争的混合 (Mixed Cooperative & Competitive)、利己主义 (Self-Interested)。

第十三章给出了几种 MARL 的实验环境。

合作关系设定下的多智能体强化学习




更新策略函数的公式:
[\Theta^i\leftarrow \Theta^i-\beta\cdot \delta_t\cdot ln\pi (a^i_t|s_t;\Theta^i) ]

实现的难点: MARL 的常见设定下,第 i 号智能体只知道 oi,而观测不到全局状态
决策和训练都依赖于全局状态,因此两者都无法实现
可行途径有两种:不同智能体之间进行通信,但是会导致训练速度减慢,对价值网络和策略网络进行近似,但是可能导致训练不收敛,做出错误决策
中心化:通信
去中心化:近似

“中心化训练 + 中心化决策”严格按照 MAC-A2C 的算法实现
“去中心化训练 + 去中心化决策”在每个智能体上部署一个策略网络和一个价值网络。智能体之间不共享参数,这样一来,训练就可以在智能体本地完成,无需中央控制器的参与,无需任何通信。本质就是m个单智体学习
“中心化训练 + 去中心化决策”在中央控制器训练价值函数和目标函数,每跑一轮计算TD目标和TD误差,把TD误差广播到所有智能体,训练策略函数,训练结束后丢弃价值函数,利用各个智能体的策略函数来进行决策,速度很快(因为决策过程无需通信)

非合作关系设定下的多智能体强化学习

[J^i(\Theta^1,\Theta^2…\Theta^m)=E_S(V^i_{pi}(s))]
收敛标准:在实验中,如果所有智能体的平均回报都不再变化,就可以认为达到了纳什均衡。在纳什均衡的情况下,谁也没有动机去单独改变自己的策略,因为改变策略不会增加自己的收益。
评价训练优劣:在非合作关系的设定下,该如何评价两种方法 M+ 和 M− 的优劣呢?以捕食者—猎物的游戏为例,我们让一种方法训练出的捕食者与另一种方法训练出的猎物对决:记录下两方捕食者的平均回报,记作 J+predator、J−predator。两者的大小可以反映出 M+ 和M− 的优劣。

训练过程中对1-m,分别训练其价值网络函数,目标网络函数和策略网络参数

三种架构:略

连续控制与 MADDPG

一种适用于连续控制的多智能体强化学习 (MARL) 方法。多智能体深度确定策略梯度 (Multi-Agent Deep Deterministic Policy Gradient,缩写 MADDPG) 是一种很有名的 MARL 方法,它的架构是“中心化训练 + 去中心化决策”

注意力机制和多智能体强化学习

单头自注意力层




实践中更多应用多头自注意力层
把l个单注意力层来连接起来

自注意力机制在中心化训练中的应用

简单神经网络的不足:
1.智能体数量越多,用的参数就越多,训练就越困难
2,m很大时,不是所有状态都和训练目标密切相关,应该找出与i最相关的智能体
3.对于价值网络o的输入,交换j和k的位置,不应该改变i的输出值
用自注意力层进行改进:
用卷积网络从每个智能体观测中提取出特征x,将xi输入到自注意力层中,输出序列ci,依赖于所有的观测x,但是主要取决于最密切相关的几个x
第i个全连接网络把ci作为输入,输入价值v。关系是非合作网络,因此m个价值网络是不同的,因此m个全连接网络不共享参数

  • Copyrights © 2024 MorningStar
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

微信