第一版序言

2016年，AlphaGo击败围棋世界冠军李世石，被认为是强化学习（RL）领域的里程碑事件。强化学习在各类棋类游戏、即时战略以及系统性能优化中的卓越表现，验证了其在不断进步和提升能力方面的巨大潜力。进入2025年，强化学习迅速席卷大模型领域，尤其在LLM（大型语言模型）的后训练时代，展现出了巨大的价值。后训练旨在通过少量的高质量样本，使模型适应新的任务，并生成相应的数据分布。强化学习的这一学习范式与后训练优化方向高度契合——它通过在动态变化的数据分布中主动学习，并在与环境交互的过程中寻找长期回报最高的策略。了解基础强化学习背后的理论知识，在当今时代变得愈发重要。

赵世钰老师的《强化学习中的数学原理》无疑是最适合作为强化学习领域入门的课程之一，笔者历经三个星期左右的时间，终于把这本《强化学习中的数学原理》课程笔记写完，由于在GitHub的版本只有英文版，所以我在学习的过程中也是一边翻译一边做笔记，当然这套笔记还存在着一些问题，需要我在未来的时间里慢慢修订打磨。

强化学习中的一个基本概念是探索与利用的权衡问题。如何在二者之间取得平衡，以在环境中学习到最优策略，是算法设计的关键。若未充分探索便过早利用，可能导致模型陷入局部最优甚至无法收敛。因此，笔者希望读者及自身在研究过程中，能够拓宽视野，不局限于本书内容。鉴于强化学习领域发展迅速，应积极关注前沿研究，从而发现并确立真正的研究兴趣所在。

本笔记的开源版本托管于GitHub，仓库名为"Mathematical-Foundations-of-Reinforcement-Learning-Notes"。

第一版序言

评论