3.2-最优状态值和最优策略

首先我们定义什么是最优策略 (optimal policy)。

考虑两个给定的策略\(\pi_1\)和\(\pi_2\)。如果对于任何状态\(s\in \mathcal{S}\)，\(\pi_1\)的状态值都大于或等于\(\pi_2\)的状态值，即：

\[v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.\]

那么\(\pi_1\)就比\(\pi_2\)好。而如果一个策略优于所有其他可能的策略，则该策略是最优的，其正式定义如下所述。

定义3.1(最优策略和最优状态值)。考虑策略\(\pi^*\)，如果对任意\(s\in \mathcal{S}\)和其他任意策略\(\pi\)，\(v_{\pi^*}(s)\geq v_\pi(s)\)，那么\(\pi^*\)是一个最优策略，并且\(\pi^*\)对应的状态值是最优状态值。

上面的定义表明，一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题：

这借个问题非常重要。如果最优策略不存在，那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。

评论