介绍

在第5章，我们介绍了全书第一类无需模型的强化学习算法：蒙特卡罗(Monte Carlo,MC)。在本章，我们将介绍全书第二类无需模型的强化学习算法：时序差分(temporal difference,TD)。与MC算法相比，TD算法最大的不同在于它是增量式的。许多人第一次看到TD算法时会有很多疑惑，例如这些算法为什么设计成这个样子。不过在学习了第6章的随机近似算法后，相信读者能更加轻松地掌握TD算法，这是因为TD算法本质上是求解贝尔曼方程或者贝尔曼最优方程的随机近似算法。

由于本章将介绍多种TD算法，为了帮助读者更好地学习，我们首先梳理这些算法之间的关系。

第7.1节介绍最基本也是最核心的TD算法。该算法可以估计一个给定策略的状态值。掌握这个算法对于学习后面的TD算法是非常有必要的。
第7.2节介绍Sarsa算法。该算法可以估计给定策略的动作值。实际上，将第7.1节的TD算法中的状态值替换为动作值，就可以得到Sarsa算法。
第7.3节介绍n-Step Sarsa算法，这是Sarsa算法的一种推广。我们将会看到Sarsa算法和MC算法是n-Step Sarsa算法的两个特殊情况。
第7.4节介绍Q-learning算法，这是经典的强化学习算法之一。Q-learning算法和Sarsa算法的区别在于：Sarsa算法是在求解一个给定策略的贝尔曼方程，而Q-learning算法是直接求解贝尔曼最优方程。
第7.5节总结本章介绍的所有TD算法，并提供一个统一的描述框架。

图\(7.1\): 本章在全书中的位置。