引言
历经三个星期左右的时间,终于把这本《强化学习中的数学原理》课程笔记写完,由于在github的版本只有英文版,所以我在学习的过程中也是一边翻译一边做笔记,当然这套笔记还存在着一些问题,需要我在未来的时间里慢慢修订打磨。
强化学习是一门兼顾数学原理和动手实践的学科,在这本书中将专注于前者,单智能体在网格世界中移动的确定性场景贯穿全书,为读者理解提供了一个很好的例子。但是作为一本重理论推导,轻代码实践的书籍,我建议将要学习强化学习的读者可以把这本书作为第二本读物(至于第一本应该是什么我也不确定),对于大部分人来说,强化学习应该是一门工科而非理科,先学会去写代码掌握大局,再去了解底层原理往往会起到更深入的效果。
强化学习中一个非常基础的概念就是探索与利用问题,如何找到一个平衡点以便在环境中找到最佳策略我,没有充分探索就盲目选择可能会使模型陷入局部最优或完全不收敛。所以我也希望读者可以把目光放广,不仅仅局限于本书,强化学习的变化日新月异,应该多去探索前沿领域的研究,找到自己的研究兴趣。
本笔记的开源版本托管于GitHub,仓库名为"Mathematical-Foundations-of-Reinforcement-Learning-Notes"。