3.6-总结

本章介绍的核心概念是最优策略和最优状态值。它们之间是密切相关的:最优状态值是最优策略的状态值;最优策略是基于最优状态值得到的。本章的核心工具是贝尔曼最优方程。我们可以应用压缩映射定理来分析这个方程。从而回答一系列有关于最优策略的基础问题。

本章的内容对于深入理解强化学习中的许多基本概念非常重要。例如,定理\(3.3\)提出了一种用于求解贝尔曼最优方程的迭代算法。该算法正是将在第\(4\)章中介绍的值迭代算法。


评论