介绍
上一章介绍了基于蒙特卡洛的无需模型的强化学习算法,下一章(第7章)将介绍另一种无需模型的强化学习算法——时序差分。然而,在开始介绍下一章的内容之前,我们需要按下暂停键,先学习本章关于随机近似算法的内容。为什么要这么做呢?我们到目前为止学习的算法都是非增量式的(non-incremental)。然而,时序差分算法是增量式的(incremental),它与我们之前学习过的算法看起来非常不同。许多读者在第一次看到时序差分算法时会有很多问题,例如这些算法为什么设计成这个样子、它们为什么能有效工作等。为了让大家能更容易地理解时序差分算法,我们在本章先来介绍随机近似算法。时序差分算法可以被视为特殊的随机近似算法;经典的随机梯度下降也是特殊的随机近似算法。

图\(6.1\): 本章在全书中的位置。