介绍

强化学习的最终目标是寻找最优策略。因此，最优策略是强化学习中非常基础且重要的概念。本章将介绍一个重要概念和一个核心工具：这个核心概念是最优状态值，基于此，我们可以定义最优策略：这个核心工具是贝尔曼最优方程，基于此，我们可以求解最优状态值和最优策略。

本章与前后两张关系密切：第2章中我们介绍了贝尔曼方程，本章将要介绍的贝尔曼最优方程是一个特殊的贝尔曼方程；第3章将介绍的“值迭代”算法就用于求解本章介绍的贝尔曼最优方程。因此，本章起到了承上启下的关键作用。

本章的数学内容相较于前两章会稍微多一些，读者可能需要更加耐心地学习，多花一点时间也是值得的。因为这些数学内容对于透彻理解后面章节的内容至关重要。此外，这些数学内容以合理的方式呈现了出来，详细大家只要耐心学习，就不会觉得特别困难。

图\(3.1\): 本章在全书中的位置。