介绍

在本章中，我们将继续研究时序差分方法，但采用不同的方法来表示状态/行动值。到目前为止，本书内容均采用表格形式表示状态/行动值。虽然表格表示法直观易懂，但在处理大型状态空间或动作空间时效率不高。本章将引入函数来表示状态值/行动值，这种方法已成为当今强化学习的主流方法。神经网络作为很好的函数近似器，也是人工神经网络进入强化学习的原因。因此本章将用值来表示值，下一章将用函数来表示策略。

图\(8.1\): 本章在全书中的位置。