介绍
本书的前三章都是在介绍基础工具。从本章开始,我们将介绍用于求解最优策略的算法。本章将介绍三个密切相关的方法。第一,值迭代 (value iteration)算法。该算法实际上就是第3章中压缩映射定理给出的求解贝尔曼最优方程的算法,具体细节将在本章给出。第二,策略迭代 (policy iteration)算法,该算法的基本思路在强化学习中被广泛使用。第三,截断策略迭代 (truncated policy iteration)算法。值迭代和策略迭代是该算法的两个特殊情况,因此截断策略迭代更加一般化。
本章介绍的算法也称为动态规划算法 (dynamic programming)[10, 11],它们需要系统模型。这些算法是后续章节中介绍的无模型强化学习算法的重要基础。例如,第\(5\)章介绍的蒙特卡洛算法可以通过扩展本章介绍的策略迭代算法而获得。

图\(4.1\): 本章在全书中的位置。