1.2-状态和行动

本书中首先介绍的概念是状态 (state),它描述了智能体相对于环境的状况。在网格世界的例子中,状态对应于智能体所在单元格的位置。如图\(1.3\)所示,这个网格具有9个单元格,因此也对应了9个状态,它们分别表示为\(s_1,s_2,...,s_9\),所有状态的集合被叫做状态空间 (state space),表示为\(\mathcal{S}=\{s_{1},\ldots,s_{9}\}。\)

我们将要介绍的第二个概念是行动 (action)。具体到网格世界中,智能体在每个状态下会采取五个可能的行动:向上移动,向右移动,向下移动,向左移动和静止不动。这五个行动分别被表示为\(a_1,a_2,...,a_5\)(如图\(1.3(b)\)中所示)。所有动作的集合被称为行动空间 (action space),表示为\(\mathcal{A}=\{a_{1},\ldots,a_{5}\}\)

不同的状态可以有不同的行动空间,例如,在\(s_1\)的状态下采取\(a_1\)\(a_4\)会导致智能体与边界发生碰撞,因此我们可以设置\(s_1\)的行动空间为\(\mathcal{A}(s_1)=\{a_{2},a_3,a_{5}\}\)。在这本书中,我们考虑最一般的情况,即使其中有我们认为不合理的行动,我们也并不是人为去除,而是通过算法来学习选择。即,对任意状态\(s\in\mathcal{S}\),有\(\mathcal{A}=\{a_1,a_2,\ldots,a_5\}\)

图1.3 状态和行动的图解,这里有九个状态\({s_1,...,s_9}\),每个状态有五个可能的行动\({a_1,a_2,a_3,a_4,a_5}\)


评论