连续控制 对状态的不完全观测 并行控制

确定策略网络

确定策略梯度 (DPG):是一种 Actor-Critic 方法

本节的确定策略网络 μ(s; θ) 的输出是 d 维的向量 a,作为动作。本节的确定策略网络没有随机性:对于确定的状态 s,策略网络 μ 输出的动作 a 是确定的。动作 a 直接是 μ 的输出,而非随机抽样得到的。
用于直接学习策略(Policy),而不是学习值函数(Value Function)。它通过梯度上升的方式更新策略参数,使得预期的累积奖励最大化。
收敛速度可能较慢,容易受到样本的方差影响,以及在处理高方差、低偏差问题时可能会遇到困难。

双延时确定策略梯度 Twin Delayed Deep Deterministic Policy Gradient (TD3)

上文算法中的方法训练目的是找到最优的策略函数,因此在训练过程中会有高估现象,而且由于自举会造成误差的传播
解决方案:使用目标网络 (Target Networks) 计算 TD 目标 yj。
增加目标价值网络和目的策略函数,防止直接更新策略函数导致误差传播,一定程度上缓解高估,但高估现象仍严重
更好的解决方案——截断双 Q 学习 (Clipped Double Q-Learning):这种方法使用两个价值网络和一个策略网络,每个网络各对应一个目标网络

其他策略:

往动作中加噪声
减小更新策略网络和目标网络的频率:应当让策略网络 μ 以及三个目标网络的更新慢于价值网络 q。传统的Actor-Critic 的每一轮训练都对策略网络、价值网络、以及目标网络做一次更新。更好的方法是每一轮更新一次价值网络,但是每隔 k 轮更新一次策略网络和三个目标网络。

综上:第一,用截断双 Q 学习,缓解价值网络的高估。第二,往目标策略网络中加噪声,起到平滑作用。第三,降低策略网络和三个目标网络的更新频率。使用这三种技巧的算法被称作双延时确定策略梯度 (Twin Delayed Deep Deterministic Policy Gradient),缩写是 TD3

随机高斯策略

策略网络是随机的,它是随机正态分布(也叫高斯分布)

对状态的不完全观测:

用循环神经网络(RNN)

并行计算


这种计算相当简单,复杂度来源于不同设备之间的通信。
MapReduce 是由 Google 开发的一种软件系统,用于大规模的数据分析和机器学习。
广播:服务器把信息发送给所有节点
映射:映射操作要求所有节点都要同时执行同一个函数,将服务器发送来的信息映射到一个向量z
规约:Worker 节点可以向服务器发送信息,最常用的通信操作是规约。这种操作可以把 Worker 节点上的数据做归并,并且传输到服务器上。

用 MapReduce 实现并行梯度下降

同步与异步

同步算法必须等待一次计算中最慢者完成计算,才能开始下一轮计算,有“短板效应”
异步算法去除了同步屏障,计算完一次后立即开展下一次计算,系统利用率高

并行强化学习

并行双Q学习:


每个Worker节点本地有独立的环境,独立的经验回放数组,还有一个 DQN 和一个目标网络。

A3C: 异步并行 A2C

A2C 属于同策略,异步并行 A2C 被称作 Asynchronous Advantage Actor-Critic (A3C)。

  • Copyrights © 2024 MorningStar
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

微信