9.1-策略表示:从表格到函数
当策略的表示方式从表格切换为函数时,必须明确两种表示方法的差异。
- 首先,如何定义最优策略?当以表格形式表示时,若某策略能使每个状态值最大化,则被定义为最优策略;当以函数形式表示时,若某策略能使特定标量指标最大化,则被定义为最优策略。
Note
在之前,一个策略\(\pi^*\)是最优的,如果对所有\(s\in \mathcal{S}\)和任何其他策略\(\pi\),\(v_{\pi^*}(s)\geq v_\pi(s)\)。\(\pi^*\)的状态值是最优状态值。
-
其次,如何更新策略?当策略以表格形式表示时,可直接修改表中条目来实现更新;而当策略以参数化函数表示时,则无法采用这种方式,只能通过改变参数\(\theta\)来完成更新。
-
第三,如何获取行动的概率?在表格形式中,行动概率可直接通过查表获得对应条目。对于函数表示的情况,我们需要将状态-行动对\((s, a)\)输入函数来计算其概率(见图\(9.2(a)\))。根据函数结构的不同,也可以仅输入状态\(s\)后直接输出所有动作的概率分布(见图\(9.2(b)\))。

图\(9.2\):策略的函数表示。这些函数可能具有不同的结构。
策略梯度方法的基本思想可概括如下。假设 \(J(\theta)\)为标量指标,通过基于梯度的算法优化该指标即可获得最优策略:
\[\theta_{t+1}=\theta_t+\alpha\nabla_\theta J(\theta_t),\]
其中\(\nabla_\theta J\)表示\(J\)关于\(\theta\)的梯度,\(t\)为时间步长,\(\alpha\)为优化速率。
基于这一基本思路,我们将在本章后续部分回答以下三个问题。
- 应采用哪些评价指标作为目标函数?(第\(9.2\)节)
- 如何计算评价指标的梯度?(第\(9.3\)节)
- 如何利用经验样本计算梯度?(第\(9.4\)节)