跳转至

9.2-目标函数:定义最优策略

若策略由函数表示,则定义最优策略的指标可分为两类:一类基于状态值,另一类基于即时奖励。

指标1:平均状态值(Average state value)

第一个指标是平均状态值,简称为平均值。其定义为

\[\bar{v}_\pi=\sum_{s\in\mathcal{S}}d(s)v_\pi(s),\]

其中\(d(s)\)表示状态\(s\)的权重。对于任意\(s \in S\),满足\(d(s) \geq0\)\(\sum_{s\in S} d(s) =1\)。因此,可将\(d(s)\)解释为\(s\)的概率分布。此时该指标可表示为

\[\bar{v}_\pi=\mathbb{E}_{S\sim d}[v_\pi(S)].\]

如何选择\(d\)的概率分布?这是一个关键问题。存在以下两种情况。

  • 最简单的情形是\(d\)与策略\(\pi\)无关。此时,我们特地将\(d\)记为\(d_0\),并将\(\bar{v}_\pi\)记为\(\bar{v}^0_\pi\)以表明该分布与策略无关。一种处理方式是赋予所有状态同等重要性,即设定\(d_0(s) =1/|\mathcal{S}|\);另一种情形是当我们仅关注特定状态\(s_0\)时(例如智能体总是从\(s_0\)开始),此时可设计

    \[d_0(s_0)=1,\quad d_0(s\neq s_0)=0.\]
  • 第二种情况是\(d\)依赖于策略\(\pi\)。此时通常选择\(d\)\(d_\pi\),即\(\pi\)下的稳态分布。\(d^\pi\)的一个基本性质是满足

    \[d_\pi^TP_\pi=d_\pi^T,\]

    其中\(P_\pi\)为状态转移概率矩阵。关于平稳分布的更多信息可参阅Box \(8.1\)

    选择\(d^\pi\)的解释如下:平稳分布反映了马尔可夫决策过程在给定策略下的长期行为。若某一状态在长期中被频繁访问,则其重要性更高,应赋予更大权重;若某状态极少被访问,则其重要性较低,应赋予较小权重。

顾名思义,\(\bar{v}_\pi\)是状态值的加权平均。不同的\(\theta\)取值会导致\(\bar{v}_\pi\)取值的差异。我们的最终目标是找到最优策略(即最优参数\(\theta\))以使\(\bar{v}_\pi\)最大化。

接下来我们引入\(\bar{v}_\pi\)的另外两种重要等价表达式。

  • 假设智能体通过遵循给定策略 \(\pi(\theta)\)收集奖励序列 \(\{R_{t+1}\}_{t=0}^\infty\)。读者在文献中常会见到如下度量指标:

    \[J(\theta)=\lim_{n\to\infty}\mathbb{E}\left[\sum_{t=0}^n\gamma^tR_{t+1}\right]=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tR_{t+1}\right].\tag{9.1}\]

    该度量指标初看可能不易理解。实际上,它等于 \(\bar{v}_\pi\)。为证明这一点,我们有

    \[\begin{aligned}\mathbb{E}\left[\sum_{t=0}^{\infty}\gamma^{t}R_{t+1}\right]&=\sum_{s\in\mathcal{S}}d(s)\mathbb{E}\left[\sum_{t=0}^{\infty}\gamma^{t}R_{t+1}|S_{0}=s\right]\\&=\sum_{s\in\mathcal{S}}d(s)v_{\pi}(s)\\&=\bar{v}_{\pi}.\end{aligned}\]

    上式中的第一个等式由全期望定律得出;第二个等式则基于状态值的定义。

  • 度量\(\bar{v}_\pi\)也可以表示为两个向量的内积。具体而言,设

    \[v_{\pi}=[\ldots,v_{\pi}(s),\ldots]^{T}\in\mathbb{R}^{|\mathcal{S}|},d=[\ldots,d(s),\ldots]^{T}\in\mathbb{R}^{|\mathcal{S}|}.\]

    于是我们得到

    \[\bar{v}_\pi=d^Tv_\pi.\]

    该表达式在分析其梯度时将会非常有用。

指标2:平均奖励(Average reward)

第二个指标是单步平均奖励(one-step reward,简称平均奖励)[2,64,65],其定义为

\[\begin{gathered}\bar{r}_{\pi}\doteq\sum_{s\in\mathcal{S}}d_{\pi}(s)r_{\pi}(s)\\=\mathbb{E}_{S\sim d_{\pi}}[r_{\pi}(S)],\end{gathered}\tag{9.2}\]

其中\(d_\pi\)为平稳分布,且

\[r_\pi(s)\doteq\sum_{a\in\mathcal{A}}\pi(a|s,\theta)r(s,a)=\mathbb{E}_{A\sim\pi(s,\theta)}[r(s,A)|s]\tag{9.3}\]

这是即时奖励的期望值。其中,\(r(s, a) = \mathbb{E}[R|s, a] = \sum rp(r|s, a)\)

接下来我们给出\(\bar{r}_\pi\)的另外两种重要等价表达式。

  • 假设智能体通过遵循给定策略\(\pi(\theta)\)收集奖励序列\(\{R_{t+1}\}_{t=0}^\infty\)。文献中常见的一个评价指标可表示为

    \[J(\theta)=\lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{t=0}^{n-1}R_{t+1}\right].\tag{9.4}\]

    乍看之下,这个度量的解释可能并不直观。实际上,它等于\(\bar{r}_\pi\)

    \[\lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{t=0}^{n-1}R_{t+1}\right]=\sum_{s\in\mathcal{S}}d_{\pi}(s)r_{\pi}(s)=\bar{r}_{\pi}.\tag{9.5}\]

    \((9.5)\)式的证明见Box 9.1。

  • \((9.2)\)中的平均奖励\(\bar{r}_\pi\)也可表示为两个向量的内积。具体而言,设

    \[r_{\pi}=[\ldots,r_{\pi}(s),\ldots]^{T}\in\mathbb{R}^{|S|},d_{\pi}=[\ldots,d_{\pi}(s),\ldots]^{T}\in\mathbb{R}^{|S|},\]

    其中\(r_\pi(s)\)由式\((9.3)\)定义。显然,

    \[\bar{r}_\pi=\sum_{s\in\mathcal{S}}d_\pi(s)r_\pi(s)=d_\pi^Tr_\pi.\]

    该表达式在推导其梯度时将非常有用。

若干说明

\(9.2\)\(\bar{v}_\pi\)\(\bar{r}_\pi\)不同但等价表达式的汇总。

截至目前,我们已经介绍了两种性能指标\(\bar{v}_\pi\)\(\bar{r}_\pi\)。每种指标均有若干形式不同但等价的表达式,其总结见表\(9.2\)。我们有时用\(\bar{v}_\pi\)特指状态分布为平稳分布\(d_\pi\)的情形,并用\(\bar{v}^0_\pi\)表示\(d_0\)独立于\(\pi\)的情形。关于这些指标的补充说明如下:

  • 所有这些指标都是\(\pi\)的函数。由于\(\pi\)\(\theta\)参数化,这些指标也是\(\theta\)的函数。换言之,不同的\(\theta\)值会生成不同的度量指标值。因此,我们可以通过搜索参数\(\theta\)的最优值来最大化这些评价指标。这正是策略梯度方法的基本思想。

  • 在折扣因子\(\gamma<1\)的情况下,两个指标\(\bar{v}_\pi\)\(\bar{r}_\pi\)是等价(而非相等)的。具体而言,可以证明:

    \[\bar{r}_{\pi}=(1-\gamma)\bar{v}_{\pi}.\]

    上述方程表明这两个指标可以同时最大化。该方程的证明将在后续引理9.1中给出。

Note

\(\bar{r}_\pi\)似乎看起来更加短视,因为他只考虑即时奖励,但是\(\bar{v}_\pi\)考虑整个步骤的总回报。


评论