介绍 第二章将介绍一个核心概念和一个核心工具。核心概念是状态值,它是一个评价策略好坏的重要指标。既然状态值这么重要,那么我们应该如何分析它呢?答案就是核心工具贝尔曼方程(Bellman equation)。贝尔曼方程描述了所有状态值之间的关系。通过求解贝尔曼方程,我们就可以得到状态值,进而评价一个策略的好坏。 图\(2.1\): 本章在全书中的位置。