介绍 本章介绍演员-评论家(Actor-Critic)方法。从一种视角看,“演员-评论家”指融合了基于策略和基于价值方法的结构框架。其中,“演员”对应策略更新步骤,其命名源于动作通过遵循策略而产生;而“评论家”对应价值更新步骤,其功能是通过评估相关价值对行动者进行评判。从另一视角看,演员-评论家方法仍属于策略梯度算法范畴,可通过扩展第\(9\)章所述策略梯度算法推导得出。读者需充分掌握第\(8\)章与第\(9\)章内容,此为学习本章的重要基础。