9.5-总结

本章介绍了策略梯度方法,该方法是许多现代强化学习算法的基础。策略梯度方法是基于策略的,而前几章的所有方法都是基于值的。策略梯度方法的基本思想简明直接:那就是选取一个适当的标量目标函数,然后通过梯度上升算法来进行优化。

策略梯度方法中最复杂的部分是目标函数梯度的推导过程。为了推导梯度,我们需要区分不同目标函数、以及考虑折现等情况。所幸不同情况下的梯度的表达式是相似的,因此我们在定理\(9.1\)中总结了统一的梯度表达式,这是本章最重要的理论成果。对多数读者而言,了解该定理就已经足够了。对于该定理的证明,读者可以有选择性地学习。

读者更应该很好地理解策略梯度算法(9.32),因为它是许多更复杂的策略梯度算法的基础。在下一章中,这个算法将被推广得到Actor-Critic的方法。


评论