强化学习课程笔记
介绍
wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
主页
第一章
第二章
第三章
第四章
第五章
第六章
第七章
第八章
第九章
第十章
Box(证明)
附录
核心算法实现
强化学习课程笔记
wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
主页
主页
引言
第一章
第一章
介绍
1.1-网格世界
1.2-状态和行动
1.3-状态转移
1.4-策略
1.5-奖励
1.6-轨迹、回报、回合
1.7-马尔科夫决策过程
1.8-总结
第二章
第二章
介绍
2.1-为什么回报很重要?
2.2-如何计算回报?
2.3-状态值
2.4-贝尔曼方程
2.5-贝尔曼方程的例子
2.6-贝尔曼方程的矩阵形式
2.7-求解状态值
2.8-行动值
2.9-总结
第三章
第三章
介绍
3.1-如何改进策略
3.2-最优状态值和最优策略
3.3-贝尔曼最优公式
3.4-从贝尔曼最优公式中求解最优策略
3.5-影响最优策略的因素
3.6-总结
第四章
第四章
介绍
4.1-值迭代
4.2-策略迭代
4.3-截断策略迭代
4.4-总结
第五章
第五章
介绍
5.1-启发示例:期望值估计
5.2-MC Basic:最简单的基于蒙特卡洛的算法
5.3-MC Exploring Starts算法
5.4-MC-Greedy算法
5.5-探索与利用:以Greedy策略为例
5.6-总结
第六章
第六章
介绍
6.1-启发示例:期望值估计
6.2-罗宾斯-门罗算法
6.3-Dvoretzky定理
6.4-随机梯度下降
6.5-总结
第七章
第七章
介绍
7.1-状态值估计:时序差分算法
7.2-行动值估计:Sarsa
7.3-行动值估计:n步Sarsa
7.4-最优行动值估计:Q-Learning
7.5-时序差分算法的统一框架
7.6-总结
第八章
第八章
介绍
8.1-价值表示:从表格到函数
8.2-基于值函数的时序差分算法:状态值估计
8.3-基于值函数的时序差分算法:行动值估计
8.4-深度Q-learning
8.5-总结
第九章
第九章
介绍
9.1-策略表示:从表格到函数
9.2-目标函数:定义最优策略
9.3-目标函数的梯度
9.4-蒙特卡洛策略梯度
9.5-总结
第十章
第十章
介绍
10.1-最简单的演员-评论性方法
10.2-优势演员-评论性方法
10.3-异策略演员-评论性方法
10.4-确定性演员-评论性方法
10.5-总结
Box(证明)
Box(证明)
介绍
2.1:迭代解法的收敛性证明
7.1:TD算法的推导
7.4:期望Sarsa算法
附录
附录
术语
核心算法实现
核心算法实现
策略迭代与值迭代
介绍
本章介绍了强化学习的基本概念。这些概念在本书中被广泛使用。我们首先通过
网格世界
介绍这些概念,然后在
马尔可夫决策过程
的框架下对它们进行更加具体介绍。
图
\(1.1\)
: 本章在全书中的位置。
回到页面顶部