9.5-总结

本章介绍了策略梯度方法，该方法是许多现代强化学习算法的基础。策略梯度方法是基于策略的，而前几章的所有方法都是基于值的。策略梯度方法的基本思想简明直接：那就是选取一个适当的标量目标函数，然后通过梯度上升算法来进行优化。

策略梯度方法中最复杂的部分是目标函数梯度的推导过程。为了推导梯度，我们需要区分不同目标函数、以及考虑折现等情况。所幸不同情况下的梯度的表达式是相似的，因此我们在定理\(9.1\)中总结了统一的梯度表达式，这是本章最重要的理论成果。对多数读者而言，了解该定理就已经足够了。对于该定理的证明，读者可以有选择性地学习。

读者更应该很好地理解策略梯度算法(9.32)，因为它是许多更复杂的策略梯度算法的基础。在下一章中，这个算法将被推广得到Actor-Critic的方法。

9.5-总结

评论