第二版序言

2025 年，DeepSeek-R1 的出现成为后训练创新的里程碑，其摒弃了传统的有监督微调（SFT），转向链式思维推理和探索性强化学习策略，有效验证了强化学习驱动推理激励在开放研究范式下的有效性，并引入了蒸馏技术，将复杂推理模式从大模型迁移到小模型。

在过去几个月中，笔者初步探索了后训练强化学习领域，并复现了若干经典算法。在复现过程中，笔者发现，许多网上和视频教程对这些算法的讲解往往只有原理解析而缺乏代码实现，或仅有代码复现而没有理论讲解。而两者都有的教程往往有“造轮子”的问题，难以与主流开源框架结合。因此，笔者决定在现有笔记的基础上，新增一个专题，详细剖析各个算法的理论知识与主流开源框架，并记录下自己在学习和复现过程中遇到的问题与解决方案，以供大家参考。

[2026.4.2]读者正在整理笔记中，并将在更新笔记后同步更新网页UI，以给大家更好的阅读体验。

第二版序言

评论