介绍 在本章中,我们将继续研究时序差分学习算法,但采用不同的方法来表示状态/行动值。本书此前的内容均采用表格形式表示状态/行动值,这种表格表示法虽然直观易懂,但在处理大规模状态或动作空间时效率低下。为解决这一问题,本章将引入值函数近似方法——该方法已成为表示值函数的标准方式,同时也是人工神经网络作为函数逼近器融入强化学习的起点。如第9章所述,值函数近似的思想也可扩展至策略函数表示。