8.5-总结
本章继续介绍时序差分(TD)学习算法,但重点从表格型方法转向函数近似方法。理解函数近似方法的关键在于认识到这是一个优化问题:最简单的目标函数是真实状态值与估计值之间的平方误差,此外还存在贝尔曼误差、投影贝尔曼误差等其他目标函数。我们证明了TD-Linear算法实际最小化的是投影贝尔曼误差,并介绍了Sarsa、Q-learning等结合值函数近似的优化算法。
价值函数近似方法的重要性之一在于其实现了人工神经网络与强化学习的结合。例如,深度Q-learning(deep Q-learning)目前最成功的深度强化学习算法之一。
尽管神经网络已作为非线性函数逼近器得到广泛应用,本章仍将全面介绍线性函数情形。充分理解线性情形对于深入认识非线性情形具有重要意义。感兴趣的读者可参阅文献[63]了解函数近似TD学习算法的完整分析,文献[61]则提供了深度Q学习更理论化的讨论。
本章引入了一个重要概念——平稳分布(stationary distribution)。平稳分布在价值函数近似法中对于定义合适的目标函数具有重要作用,同时在第9章使用函数近似策略时也扮演着关键角色。关于该主题的精彩论述可参阅文献[49,第四章]。本章内容高度依赖于矩阵分析,部分结论将直接引用而不作解释。关于矩阵分析与线性代数的权威参考文献可查阅[4,48]。