1.3-状态转移

当执行一次行动时,智能体可能会从一个状态转移到另外一个状态。这样一个过程被称为状态转移 (state transition)。例如,如果智能体在状态\(s_1\)处执行了行动\(a_2\)(也就是向右移动),那么此时智能体将会移动到状态\(s_2\),这样一个过程可以表示为:

\[s_1\xrightarrow{a_2}s_2\]

下面我们考虑两个重要且特殊的情况。

  • 当智能体尝试跃出边界时,它下一步的状态应该是什么呢?例如,在\(s_1\)时采取行动\(a_1\)(也就是向上移动)时。因为智能体不可能挑出状态空间,所以智能体将会弹回到某一状态,在本书中设置为弹回原来的状态,这样一个状态转移过程表示为\(s_1\xrightarrow{a_1}s_1\)

  • 当智能体试图进入禁区时,它下一步的状态应该是什么呢?例如在\(s_5\)时采取行动\(a_2\)(也就是向右移动)。分析两种不同的情况。在第一种情况下,尽管\(s_6\)是禁区,但是他仍然是可访问的,只不过进入的时候有惩罚。这种情况下,下一个状态就是\(s_6\)。因此状态转移就是\(s_5\xrightarrow{a_2}s_6\)。在第二种情况下,\(s_6\)是不可访问的,在这种情况下,智能体在尝试采取行动\(a_2\)时将会弹回回到\(s_5\),因此这时候的状态转移过程就是\(s_5\xrightarrow{a_2}s_5\)

    我们究竟应该考虑哪种情况呢?在不同的场景下有不同的选择。在本书中,我们考虑第一种情况,即禁区是可以被访问的,只是智能体进入禁区会受到惩罚。这种情景更加一般化并且有趣。我们在后面的部分例子中可以看到智能体可能“冒险”穿过禁区,从而更快地到达目标区域。

每个状态的每一个行动都会对应一个状态转移过程。这个过程在表\(1.1\)中有所描述。在这个表中,每一行对应一个状态,每一列代表一个行动。每一个单元格给出了当智能体在对应的状态采取了对应行动后,将会转移到的下一个状态。

表1.1 状态过程的表格表示。每个单元格表示智能体在某一状态下采取行动后要过渡到的下一个状态。

在数学上,状态转移过程可以用条件概率来描述,例如,对于状态\(s_1\)和行动\(a_2\)的状态转移可以表示为:

\[\begin{cases}&p(s_1|s_1,a_2)=0,\\&p(s_2|s_1,a_2)=1,\\&p(s_3|s_1,a_2)=0,\\&p(s_4|s_1,a_2)=0,\\&p(s_5|s_1,a_2)=0,\end{cases}\]

该条件概率表明,在状态\(s_1\)时采取行动\(a_2\)时,智能体移动到状态\(s_2\)的概率为\(1\),移动到其他状态的概率为\(0\)。因此在状态\(s_1\)处采取行动\(a_2\)一定会导致智能体转移到\(s_2\),关于条件概率的预备知识在附录A中给出,供读者参考。

Note

强烈建议读者熟练掌握概率论。

表格表示法虽然直观,但只能描述确定性(deterministic)的状态转移过程。一般来说,状态转移也可能是随机的(stochastic),此时需要用条件概率分布来描述。例如,当一阵随机的风吹过网格世界时,如果在状态\(s_1\)处采取行动\(a_2\),智能体有可能会被吹到状态\(s_5\),而不是状态\(s_2\)。在这种情况下,我们有\(p(s_5|s_1,a_2)>0\)。不过为了简单起见,我们在书中仅考虑网格世界中的确定性状态转移过程。


评论