策略梯度方法

策略梯度方法

用神经网络 π(a|s; θ) 近似策略函数 π(a|s)。神经网络 π(a|s; θ) 被称为策略网络。θ 表示神经网络的参数;一开始随机初始化 θ,随后利用收集的状态、动作、奖励去更新 θ。



之后用两种方法来近似动作价值函数Qπ:一种方法是 REINFORCE,用实际观测的回报 u 近似 Qπ(s, a);另一种方法是Actor-Critic,用神经网络 q(s, a; w) 近似 Qπ(s, a)。
REINFORCE让智能体完成一局游戏,然后利用这局游戏的数据来反向传播计算,做随机梯度上升来更新参数。
同策略,不适用于经验回放

Actor-Critic:
用SARSA算法更新价值网络Qπ

带基线的策略梯度方法

把 b 作为动作价值函数 Qπ(S, A) 的基线 (Baseline),用 Qπ(S, A) − b 替换掉 Qπ。设 b 是任意的函数,只要不依赖于动作 A 就可以;例如,b 可以是状态价值函数 Vπ(S)。
带基线可以帮助减少方差并加速学习过程。

策略学习高级算法

置信域策略优化 (Trust Region Policy Optimization, TRPO)

有两个优势:第一,TRPO表现更稳定,收敛曲线不会剧烈波动,而且对学习率不敏感;第二,TRPO 用更少的经验(即智能体收集到的状态、动作、奖励)就能达到与策略梯度方法相同的表现。

熵正则 (Entropy Regularization):

我们希望策略网络输出的概率分布的熵不要太小。我们不妨把熵作为正则项,放到策略学习的目标函数中。策略网络的输出是维度等于 |A| 的向量,它表示定义在动作空间上的离散概率分布。

  • Copyrights © 2024 MorningStar
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

微信