1.4-策略

策略(policy)会告诉智能体在每一个状态下应该采取什么行动。直观上,策略可以被描述为图\(1.4(a)\)中的箭头。如果智能体执行某一个策略,那么它将会从初始状态生成一条轨迹。

图1.4 一个确定性策略和对应的轨迹

在数学上,策略可以用条件概率来描述。将图\(1.4\)中的策略描述为\(\pi(a|s)\),表示在状态\(s\)采取行动\(a\)的概率。每一个状态和每一个行动都有这样的定义。例如,在图\(1.4\)所示的例子中,状态\(s_1\)对应的策略是:

\[\begin{gathered}\pi(a_1|s_1)=0,\\\pi(a_{2}|s_{1})=1,\\\pi(a_3|s_1)=0,\\\pi(a_4|s_1)=0,\\\pi(a_{5}|s_{1})=0,\end{gathered}\]

该条件概率表示在状态\(s_1\)下采取行动\(a_2\)的概率是\(1\),而采取其他动作的概率为\(0\)

上面例子中的策略是确定性的。但是策略也可能是随机的。例如,在图\(1.5\)给出了一种随机策略: 在状态\(s_1\)下,智能体有0.5的概率采取向右移动,有0.5的概率采取向下移动,此时在状态\(s_1\)的策略是:

\[\begin{gathered}\pi(a_1|s_1)=0,\\\pi(a_{2}|s_{1})=0.5,\\\pi(a_3|s_1)=0.5,\\\pi(a_4|s_1)=0,\\\pi(a_{5}|s_{1})=0,\end{gathered}\]

图1.5 一个随机策略。在状态\(s_1\)中,智能体可能向右移动,也可能向下移动,概率均为\(0.5\)

除了用条件概率来表示策略,其也可以通过表格形式来描述。例如,表\(1.2\)展示了图\(1.5\)所示的随机策略。其中第\(i\)行和第\(j\)列的元素对应了在第\(i\)个状态下采取第\(j\)个行动的概率。这种表示法称为表格表示法(tabular representation)。这种表格表示法十分基础,是后续学习概念和算法的关键。此外,我们将在第8章中介绍另一种表示方法,即将策略表示为参数化函数。

表1.2 一个策略的表格表示法。


评论