8.5-总结

本章仍然在介绍TD算法,但重点从表格法转向函数法。理解值函数法的关键在于认识到这是一个优化问题。其中最简单的目标函数是真实值与估计值之间的误差,此外其他目标函数,例如贝尔曼误差、投影贝尔曼误差。在算法层面,我们首先介绍了用于估计状态值的算法,进而推广到Sarsa、Q-learning。

值函数法重要的一个原因在于其实现了人工神经网络与强化学习的结合。例如,深度Q-learning(deep Q-learning)目前最成功的深度强化学习算法之一。尽管神经网络已作为非线性函数近似器得到广泛应用,但本章仍全面介绍历史上早期研究比较多的线性函数情形。一方面是因为充分理解线性情形对于深入认识非线性情形具有重要意义。另一方面也是基于表格的TD算法可以被视为一种特殊的基于线性值函数的TD算法。更多讨论可以参见[61],其提供了深度Q-learning更理论化的讨论。

此外,本章还引入了一个重要概念——平稳分布(stationary distribution)。平稳分布在定义合适的目标函数具有重要作用,同时在第9章我们也将看到这个概念在使用策略函数时起到关键作用。关于这个概念更多内容可参阅[49,第四章]。最后本章内容高度依赖于矩阵分析,部分结论将直接引用而不作解释。关于矩阵分析与线性代数的权威参考可查阅[4,48]。


评论