logo
强化学习课程笔记
术语
wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
  • 主页
  • 第一章
  • 第二章
  • 第三章
  • 第四章
  • 第五章
  • 第六章
  • 第七章
  • 第八章
  • 第九章
  • 第十章
  • Box(证明)
  • 附录
  • 核心算法实现
wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
  • 主页
    • 引言
    • 介绍
    • 1.1-网格世界
    • 1.2-状态和行动
    • 1.3-状态转移
    • 1.4-策略
    • 1.5-奖励
    • 1.6-轨迹、回报、回合
    • 1.7-马尔科夫决策过程
    • 1.8-总结
    • 介绍
    • 2.1-为什么回报很重要?
    • 2.2-如何计算回报?
    • 2.3-状态值
    • 2.4-贝尔曼方程
    • 2.5-贝尔曼方程的例子
    • 2.6-贝尔曼方程的矩阵形式
    • 2.7-求解状态值
    • 2.8-行动值
    • 2.9-总结
    • 介绍
    • 3.1-如何改进策略
    • 3.2-最优状态值和最优策略
    • 3.3-贝尔曼最优公式
    • 3.4-从贝尔曼最优公式中求解最优策略
    • 3.5-影响最优策略的因素
    • 3.6-总结
    • 介绍
    • 4.1-值迭代
    • 4.2-策略迭代
    • 4.3-截断策略迭代
    • 4.4-总结
    • 介绍
    • 5.1-启发示例:期望值估计
    • 5.2-MC Basic:最简单的基于蒙特卡洛的算法
    • 5.3-MC Exploring Starts算法
    • 5.4-MC-Greedy算法
    • 5.5-探索与利用:以Greedy策略为例
    • 5.6-总结
    • 介绍
    • 6.1-启发示例:期望值估计
    • 6.2-罗宾斯-门罗算法
    • 6.3-Dvoretzky定理
    • 6.4-随机梯度下降
    • 6.5-总结
    • 介绍
    • 7.1-状态值估计:时序差分算法
    • 7.2-行动值估计:Sarsa
    • 7.3-行动值估计:n步Sarsa
    • 7.4-最优行动值估计:Q-Learning
    • 7.5-时序差分算法的统一框架
    • 7.6-总结
    • 介绍
    • 8.1-价值表示:从表格到函数
    • 8.2-基于值函数的时序差分算法:状态值估计
    • 8.3-基于值函数的时序差分算法:行动值估计
    • 8.4-深度Q-learning
    • 8.5-总结
    • 介绍
    • 9.1-策略表示:从表格到函数
    • 9.2-目标函数:定义最优策略
    • 9.3-目标函数的梯度
    • 9.4-蒙特卡洛策略梯度
    • 9.5-总结
    • 介绍
    • 10.1-最简单的演员-评论性方法
    • 10.2-优势演员-评论性方法
    • 10.3-异策略演员-评论性方法
    • 10.4-确定性演员-评论性方法
    • 10.5-总结
    • 介绍
    • 2.1:迭代解法的收敛性证明
    • 7.1:TD算法的推导
    • 7.4:期望Sarsa算法
    • 术语
    • 策略迭代与值迭代

术语

上一页
7.4:期望Sarsa算法
下一页
策略迭代与值迭代

Copyright © 2022-2025 强化学习课程笔记

由 Material for MkDocs 驱动

Cookie 设置

我们使用 cookies 来识别您的重复访问和偏好,以及衡量我们文档的有效性和用户是否找 到他们正在搜索的内容。
在您的同意下,您将帮助我们改进我们的文档。
(您稍后仍可以在网页左下角重新修改 cookies 设置)