介绍
强化学习的最终目标是寻找最优策略。因此,最优策略是强化学习中非常基础且重要的概念。本章将介绍一个重要概念和一个核心工具:这个核心概念是最优状态值,基于此,我们可以定义最优策略:这个核心工具是贝尔曼最优方程,基于此,我们可以求解最优状态值和最优策略。
本章与前后两张关系密切:第2章中我们介绍了贝尔曼方程,本章将要介绍的贝尔曼最优方程是一个特殊的贝尔曼方程;第3章将介绍的“值迭代”算法就用于求解本章介绍的贝尔曼最优方程。因此,本章起到了承上启下的关键作用。
本章的数学内容相较于前两章会稍微多一些,读者可能需要更加耐心地学习,多花一点时间也是值得的。因为这些数学内容对于透彻理解后面章节的内容至关重要。此外,这些数学内容以合理的方式呈现了出来,详细大家只要耐心学习,就不会觉得特别困难。

图\(3.1\): 本章在全书中的位置。