介绍
上一章我们介绍了用函数表示值的方法,本章将介绍函数表示策略的方法。当用函数表示策略时,我们可以选择一个目标函数,进而优化该目标函数以获得最优策略。这种方法被称为策略梯度(policy gradient)。策略梯度方法是基于策略的(policy-based),而本书之前的所有章节都是基于值的(value-based)。这两者有什么区别呢?其本质区别在于基于策略的方法直接优化关于策略参数的目标函数,从而得到最优策略;而基于值的方法则是通过先估计值再得到最优策略的。具体区别学习完本章大家就会有一个清晰地认识。

图\(9.1\): 本章在全书中的位置。