9.5-总结

本章介绍了策略梯度方法,该方法构成了许多现代强化学习算法的基础。策略梯度方法属于基于策略的算法,这是本书的重要进展,因为前几章的所有方法均基于价值函数(value-based)。策略梯度方法的基本思想简明直接:选取适当的标量指标,并通过梯度上升算法对其进行优化。

策略梯度法最复杂的部分在于指标梯度的推导。这是因为我们需要区分不同指标以及是否考虑折现因子的多种情形。所幸不同情形下的梯度表达式具有相似性,因此我们在定理\(9.1\)中总结了这些表达式——这是本章最重要的理论成果。对多数读者而言,掌握该定理已足够。其证明过程较为复杂,并非所有读者都需要研读。


评论