10.5-总结

在本章中，我们介绍了多种演员-评论家(Actor-Critic)算法，主要内容总结如下。

\(10.1\)节介绍了最简单的Actor-Critic算法QAC。该算法与前一章介绍的策略梯度算法REINFORCE非常相似，唯一区别在于QAC的q值估计依赖于时序差分方法，而 REINFORCE依赖于蒙特卡洛估计。
第\(10.2\)节将QAC方法扩展至优势Actor-Critic算法。我们证明了当引入额外的基准函数时策略梯度是不变的；然后给出了最优的基准函数，从而可以减小估计的方差。
第10.3节进一步将优势Actor-Critic算法推广至Off-policy场景。为此，我们引入了一项称为重要性采样的关键技术。
最后，之前介绍的所有策略梯度算法都依赖于随机策略，但我们在第\(10.4\)节中证明了策略可以被强制限定为确定性策略。我们推导了相应的确定性策略梯度，并且引入了确定性策略梯度算法。

策略梯度和Actor-Critic方法是现代强化学习中被广泛使用的技术。文献中存在大量先进算法，例如SAC [76,77]、TRPO [78]、PPO [79]和 TD3 [80]。此外，单智能体情形也可以扩展至多智能体强化学习场景(multi-agent reinforcement learning, MARL)[81–85]。经验样本亦可用于拟合系统模型，从而实现基于模型的强化学习(model-based reinforcement learning)[15,86,87]。分布式强化学习(distributional reinforcement learning)提供了一个与传统方法不同的研究视角[88,89]。强化学习与控制理论之间的关系已在文献[90–95]中深有讨论。本书虽无法涵盖所有这些主题，但希望通过本书奠定的理论基础能帮助读者在未来更好地开展相关研究。