介绍

本章介绍演员-评论家(Actor-Critic)方法。从一个角度来看,Actor-Critic指的是一种结构,其融合了基于策略和基于价值的两类方法。其中,“Actor”对应于策略更新,之所以称为Actor,是因为它对应生成动作的策略。而“Critic”对应价值更新,之所以称之为Critic,是因为它会评估策略相应的价值。从另一个角度来看,Actor-Critic本质上仍然是策略梯度的方法,它可以通过推广第\(9\)章介绍的策略梯度方法得到。在学习本章之前,读者应该充分掌握第\(8\)章与第\(9\)章内容,否则会面临诸多挑战。

\(10.1\): 本章在全书中的位置。