1.8-总结
本章介绍了强化学习中的基本概念,这些概念在本书后将会被广泛使用。我们使用直观的网格世界的例子来介绍这些概念,进而在马尔科夫决策过程的框架中对它们进行了正式的介绍。有关马尔科夫决策过程的更多信息,读者可以参阅文献[1, 2]。
[1] M. Pinsky and S. Karlin, An introduction to stochastic modeling (3rd Edition). Academic Press, 1998. https://openlibrary.org/books/OL693303M/An_introduction_to_stochastic_modeling
[2] M. L. Puterman, Markov decision processes: Discrete stochastic dynamic programming. John Wiley & Sons, 2014. https://doi.org/10.1002/9780470316887