欢迎¶
本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结,笔者将其做成了网页模式,方便大家随时随地在掌上设备阅读。在此基础上,我还补充了对书中核心算法的实现,以便读者能获得更直观的理解。书中首先从基础概念入手,讲解Bellman公式和Bellman最优公式,接着扩展到基于模型(model-based)和无模型(model-free)的强化学习算法,最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识,只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者,本笔记则可以帮助他们深入理解相关问题。
说明¶
- 本笔记并不仅仅希望翻译原书,而是同步实现书中的一些例子和算法。这些代码在(核心算法实现)中可以找到,笔者正在积极实现更多算法。同时笔者希望通过网页嵌入IDE使得读者可以在网页端运行代码,正在找寻方法实现此功能。
- 本笔记在每个页面最下方均添加了讨论区,以供大家友好地进行讨论。
- 关于若干定理的证明,笔者暂时没有把他们整理到笔记当中,预计将在今年6月前完成对关键证明的整理和补充。
- 由于本人的知识水平有限,对于一些地方的翻译和解释可能不到位,也欢迎大家发现问题后及时发布issue或者在问题当页发布评论。