介绍

上一章中介绍了基于系统模型求解最优策略的算法。本章将开始介绍无需模型 (model-free)的强化学习算法,如果没有模型,我们如何找到最优策略呢?思路上很简单:如果没有模型,就必须要有数据;如果没有数据,就必须要有一个模型;如果两者都没有,那么就无法找到最优策略。在强化学习中,“数据”通常指的是智能体与环境交互所获得的经验。

本章首先介绍一个均值估计的例子,理解这个例子对于理解“从数据中学习”的基本思想十分重要。接着,我们将介绍基于蒙特卡洛方法的三种强化学习算法,这些算法能够从数据中学习到最优策略。第一个也是最简单的算法称为MC Basic,该算法可以通过修改上一章介绍的策略迭代算法得到。理解MC Basic算法对于掌握基于蒙特卡洛的强化学习非常重要。通过进一步扩展这一算法,我们介绍另外两种虽然更复杂但效率更高的算法。

\(5.1\): 本章在全书中的位置。