跳转至

强化学习中的数学原理

欢迎页面

wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes

欢迎¶

本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结，笔者将其做成了网页模式，方便大家随时随地在掌上设备阅读。在此基础上，我还补充了对书中核心算法的实现，以便读者能获得更直观的理解。书中首先从基础概念入手，讲解Bellman公式和Bellman最优公式，接着扩展到基于模型（model-based）和无模型（model-free）的强化学习算法，最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识，只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者，本笔记则可以帮助他们深入理解相关问题。

说明¶

本笔记并不仅仅希望翻译原书，而是同步实现书中的一些例子和算法。这些代码在(核心算法实现)中可以找到，笔者正在积极实现更多算法。同时笔者希望通过网页嵌入IDE使得读者可以在网页端运行代码，正在找寻方法实现此功能。
本笔记在每个页面最下方均添加了讨论区，以供大家友好地进行讨论。
关于若干定理的证明，笔者暂时没有把他们整理到笔记当中，预计将在今年6月前完成对关键证明的整理和补充。
由于本人的知识水平有限，对于一些地方的翻译和解释可能不到位，也欢迎大家发现问题后及时发布issue或者在问题当页发布评论。

评论