3.2-最优状态值和最优策略
首先我们定义什么是最优策略 (optimal policy)。
考虑两个给定的策略\(\pi_1\)和\(\pi_2\)。如果对于任何状态\(s\in \mathcal{S}\),\(\pi_1\)的状态值都大于或等于\(\pi_2\)的状态值,即:
\[v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.\]
那么\(\pi_1\)就比\(\pi_2\)好。而如果一个策略优于所有其他可能的策略,则该策略是最优的,其正式定义如下所述。
定义3.1(最优策略和最优状态值)。考虑策略\(\pi^*\),如果对任意\(s\in \mathcal{S}\)和其他任意策略\(\pi\),\(v_{\pi^*}(s)\geq v_\pi(s)\),那么\(\pi^*\)是一个最优策略,并且\(\pi^*\)对应的状态值是最优状态值。
上面的定义表明,一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题:
- 存在性:这样的最优策略是否存在?
- 唯一性:这样的最优策略是唯一的吗?
- 随机性:最优策略是随机性的还是确定性的?
- 算法:什么算法能够使我们获得最优策略和最优状态值?
这借个问题非常重要。如果最优策略不存在,那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。