4.4-总结

本章第一次介绍了三种可用于寻找最优策略的算法。

这三种算法的共同特点是是每一轮迭代都包含两个步骤：一个是用于值的更新，另一个步骤关于策略的更新。在值与策略更新之间不断切换的思想在强化学习中非常普遍，这种理念也被称为广义策略迭代(Generalized Policy Iteration)3。

最后，本章介绍的算法都需要事先知道系统模型。从第\(5\)章开始，我们将学习无模型的强化学习算法。届时我们将看到无模型的算法可以通过对本章介绍的有模型的算法进行简单修改得到，因此本章的内容十分重要。

评论