3.2-最优状态值和最优策略

首先我们定义什么是最优策略 (optimal policy)。

考虑两个给定的策略\(\pi_1\)\(\pi_2\)。如果对于任何状态\(s\in \mathcal{S}\)\(\pi_1\)的状态值都大于或等于\(\pi_2\)的状态值,即:

\[v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.\]

那么\(\pi_1\)就比\(\pi_2\)好。而如果一个策略优于所有其他可能的策略,则该策略是最优的,其正式定义如下所述。

定义3.1(最优策略和最优状态值)。考虑策略\(\pi^*\),如果对任意\(s\in \mathcal{S}\)和其他任意策略\(\pi\)\(v_{\pi^*}(s)\geq v_\pi(s)\),那么\(\pi^*\)是一个最优策略,并且\(\pi^*\)对应的状态值是最优状态值。

上面的定义表明,一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题:

  • 存在性:这样的最优策略是否存在?
  • 唯一性:这样的最优策略是唯一的吗?
  • 随机性:最优策略是随机性的还是确定性的?
  • 算法:什么算法能够使我们获得最优策略和最优状态值?

这借个问题非常重要。如果最优策略不存在,那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。


评论