策略梯度方法

scientific_research_training

字数统计: 460 | 阅读时长≈ 1 分钟

策略梯度方法

用神经网络 π(a|s; θ) 近似策略函数 π(a|s)。神经网络 π(a|s; θ) 被称为策略网络。θ 表示神经网络的参数；一开始随机初始化 θ，随后利用收集的状态、动作、奖励去更新 θ。

之后用两种方法来近似动作价值函数Qπ：一种方法是 REINFORCE，用实际观测的回报 u 近似 Qπ(s, a)；另一种方法是Actor-Critic，用神经网络 q(s, a; w) 近似 Qπ(s, a)。
REINFORCE让智能体完成一局游戏，然后利用这局游戏的数据来反向传播计算，做随机梯度上升来更新参数。
同策略，不适用于经验回放

Actor-Critic：
用SARSA算法更新价值网络Qπ

带基线的策略梯度方法

把 b 作为动作价值函数 Qπ(S, A) 的基线 (Baseline)，用 Qπ(S, A) − b 替换掉 Qπ。设 b 是任意的函数，只要不依赖于动作 A 就可以；例如，b 可以是状态价值函数 Vπ(S)。
带基线可以帮助减少方差并加速学习过程。

策略学习高级算法

置信域策略优化 (Trust Region Policy Optimization, TRPO)

有两个优势：第一，TRPO表现更稳定，收敛曲线不会剧烈波动，而且对学习率不敏感；第二，TRPO 用更少的经验（即智能体收集到的状态、动作、奖励）就能达到与策略梯度方法相同的表现。

熵正则 (Entropy Regularization):

我们希望策略网络输出的概率分布的熵不要太小。我们不妨把熵作为正则项，放到策略学习的目标函数中。策略网络的输出是维度等于 |A| 的向量，它表示定义在动作空间上的离散概率分布。

请我喝杯咖啡吧~

微信