5.6-总结

本章是全书中第一次介绍无需模型的强化学习算法。我们首先通过一个期望值估计的问题介绍了蒙特卡洛的思想,之后介绍了三种基于蒙特卡洛的算法。

  • MC Basic:这是最简单的基于蒙特卡罗的强化学习算法。该算法与上一章介绍的策略迭代算法有密切关系:只要把策略迭代算法中需要模型的策略评估模块替换为无需模型的蒙特卡洛估计模块,就能得到MC Basic算法。
  • MC Exploring Starts: 此算法是MC Basic算法的推广。只要将一些提高样本使用效率和更新策略效率的技巧引入MC Basic,就能得到MC Exploring Starts算法。

  • MC \(\varepsilon\)-Greedy算法:此算法是MC Exploring Starts算法的推广。只要将MC Exploring Starts算法中的策略从Greedy改为\(\varepsilon\)-Greedy,就可以得到MC \(\varepsilon\)-Greedy算法。通过这种方式增强了策略的探索能力,因此可以移除Exploring Starts的条件。

三个算法紧密相连,MC Basic是MC Exploring Starts的基础,MC \(\varepsilon\)-Greedy是MC Exploring Starts的推广。

最后,通过考察\(\varepsilon\)-Greedy策略的特性,引入了探索与利用之间的权衡。随着\(\varepsilon\)值的增加,\(\varepsilon\)-Greedy策略的探索能力增强,而利用能力则减弱。另一方面,如果\(\varepsilon\)值减小,则可以更好地利用Greedy行动,但探索能力会受到损害。


评论