第一版序言
2016年,AlphaGo击败围棋世界冠军李世石,被认为是强化学习(RL)领域的里程碑事件。强化学习在各类棋类游戏、即时战略以及系统性能优化中的卓越表现,验证了其在不断进步和提升能力方面的巨大潜力。进入2025年,强化学习迅速席卷大模型领域,尤其在LLM(大型语言模型)的后训练时代,展现出了巨大的价值。后训练旨在通过少量的高质量样本,使模型适应新的任务,并生成相应的数据分布。强化学习的这一学习范式与后训练优化方向高度契合——它通过在动态变化的数据分布中主动学习,并在与环境交互的过程中寻找长期回报最高的策略。了解基础强化学习背后的理论知识,在当今时代变得愈发重要。
赵世钰老师的《强化学习中的数学原理》无疑是最适合作为强化学习领域入门的课程之一,笔者历经三个星期左右的时间,终于把这本《强化学习中的数学原理》课程笔记写完,由于在GitHub的版本只有英文版,所以我在学习的过程中也是一边翻译一边做笔记,当然这套笔记还存在着一些问题,需要我在未来的时间里慢慢修订打磨。
强化学习中的一个基本概念是探索与利用的权衡问题。如何在二者之间取得平衡,以在环境中学习到最优策略,是算法设计的关键。若未充分探索便过早利用,可能导致模型陷入局部最优甚至无法收敛。因此,笔者希望读者及自身在研究过程中,能够拓宽视野,不局限于本书内容。鉴于强化学习领域发展迅速,应积极关注前沿研究,从而发现并确立真正的研究兴趣所在。
本笔记的开源版本托管于GitHub,仓库名为"Mathematical-Foundations-of-Reinforcement-Learning-Notes"。