logo
强化学习中的数学原理
术语
正在初始化搜索引擎
    wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
    • 强化学习中的数学原理笔记
    • 核心算法实现
    wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes
      • 主页
        • 第一版序言
        • 第二版序言
        • 介绍
        • 1.1-网格世界
        • 1.2-状态和行动
        • 1.3-状态转移
        • 1.4-策略
        • 1.5-奖励
        • 1.6-轨迹、回报、回合
        • 1.7-马尔科夫决策过程
        • 1.8-总结
        • 介绍
        • 2.1-为什么回报很重要?
        • 2.2-如何计算回报?
        • 2.3-状态值
        • 2.4-贝尔曼方程
        • 2.5-贝尔曼方程的例子
        • 2.6-贝尔曼方程的矩阵形式
        • 2.7-求解状态值
        • 2.8-行动值
        • 2.9-总结
        • 介绍
        • 3.1-如何改进策略
        • 3.2-最优状态值和最优策略
        • 3.3-贝尔曼最优公式
        • 3.4-从贝尔曼最优公式中求解最优策略
        • 3.5-影响最优策略的因素
        • 3.6-总结
        • 介绍
        • 4.1-值迭代
        • 4.2-策略迭代
        • 4.3-截断策略迭代
        • 4.4-总结
        • 介绍
        • 5.1-启发示例:期望值估计
        • 5.2-MC Basic:最简单的基于蒙特卡洛的算法
        • 5.3-MC Exploring Starts算法
        • 5.4-MC-Greedy算法
        • 5.5-探索与利用:以Greedy策略为例
        • 5.6-总结
        • 介绍
        • 6.1-启发示例:期望值估计
        • 6.2-罗宾斯-门罗算法
        • 6.3-Dvoretzky定理
        • 6.4-随机梯度下降
        • 6.5-总结
        • 介绍
        • 7.1-状态值估计:时序差分算法
        • 7.2-行动值估计:Sarsa
        • 7.3-行动值估计:n步Sarsa
        • 7.4-最优行动值估计:Q-Learning
        • 7.5-时序差分算法的统一框架
        • 7.6-总结
        • 介绍
        • 8.1-价值表示:从表格到函数
        • 8.2-基于值函数的时序差分算法:状态值估计
        • 8.3-基于值函数的时序差分算法:行动值估计
        • 8.4-深度Q-learning
        • 8.5-总结
        • 介绍
        • 9.1-策略表示:从表格到函数
        • 9.2-目标函数:定义最优策略
        • 9.3-目标函数的梯度
        • 9.4-蒙特卡洛策略梯度
        • 9.5-总结
        • 介绍
        • 10.1-最简单的演员-评论性方法
        • 10.2-优势演员-评论性方法
        • 10.3-异策略演员-评论性方法
        • 10.4-确定性演员-评论性方法
        • 10.5-总结
        • 介绍
        • 2.1:迭代解法的收敛性证明
        • 7.1:TD算法的推导
        • 7.4:期望Sarsa算法
        • 术语
        • 参考文献
      • 策略迭代与值迭代

    术语

    上一页
    7.4:期望Sarsa算法
    下一页
    参考文献

    Copyright © 2022-2025 强化学习课程笔记

    由 Material for MkDocs 驱动

    Cookie 设置

    我们使用 cookies 来识别您的重复访问和偏好,以及衡量我们文档的有效性和用户是否找 到他们正在搜索的内容。
    在您的同意下,您将帮助我们改进我们的文档。
    (您稍后仍可以在网页左下角重新修改 cookies 设置)