连续控制对状态的不完全观测并行控制

2024-05-08

字数统计: 943 | 阅读时长≈ 3 分钟

确定策略网络

确定策略梯度 (DPG)：是一种 Actor-Critic 方法

本节的确定策略网络 μ(s; θ) 的输出是 d 维的向量 a，作为动作。本节的确定策略网络没有随机性：对于确定的状态 s，策略网络 μ 输出的动作 a 是确定的。动作 a 直接是 μ 的输出，而非随机抽样得到的。
用于直接学习策略（Policy），而不是学习值函数（Value Function）。它通过梯度上升的方式更新策略参数，使得预期的累积奖励最大化。
收敛速度可能较慢，容易受到样本的方差影响，以及在处理高方差、低偏差问题时可能会遇到困难。

双延时确定策略梯度 Twin Delayed Deep Deterministic Policy Gradient (TD3)

上文算法中的方法训练目的是找到最优的策略函数，因此在训练过程中会有高估现象，而且由于自举会造成误差的传播
解决方案：使用目标网络 (Target Networks) 计算 TD 目标 yj。
增加目标价值网络和目的策略函数，防止直接更新策略函数导致误差传播，一定程度上缓解高估，但高估现象仍严重
更好的解决方案——截断双 Q 学习 (Clipped Double Q-Learning)：这种方法使用两个价值网络和一个策略网络，每个网络各对应一个目标网络

其他策略：

往动作中加噪声
减小更新策略网络和目标网络的频率:应当让策略网络 μ 以及三个目标网络的更新慢于价值网络 q。传统的Actor-Critic 的每一轮训练都对策略网络、价值网络、以及目标网络做一次更新。更好的方法是每一轮更新一次价值网络，但是每隔 k 轮更新一次策略网络和三个目标网络。

综上：第一，用截断双 Q 学习，缓解价值网络的高估。第二，往目标策略网络中加噪声，起到平滑作用。第三，降低策略网络和三个目标网络的更新频率。使用这三种技巧的算法被称作双延时确定策略梯度 (Twin Delayed Deep Deterministic Policy Gradient)，缩写是 TD3

随机高斯策略

策略网络是随机的，它是随机正态分布（也叫高斯分布）

对状态的不完全观测：

用循环神经网络（RNN）

并行计算

这种计算相当简单，复杂度来源于不同设备之间的通信。
MapReduce 是由 Google 开发的一种软件系统，用于大规模的数据分析和机器学习。
广播:服务器把信息发送给所有节点
映射：映射操作要求所有节点都要同时执行同一个函数，将服务器发送来的信息映射到一个向量z
规约：Worker 节点可以向服务器发送信息，最常用的通信操作是规约。这种操作可以把 Worker 节点上的数据做归并，并且传输到服务器上。