北京大学DeepSeek系列三部曲中文pdf完整版

发布日期：2025-03-06 15:51:54

北京大学发布的《北京大学内部手册Ⅲ-DeepSeek-R1及类强推理模型开发解读》，详细介绍了DeepSeek-R1模型在大语言模型对齐和可扩展监督领域的研究进展。主要内容包括模型核心技术RL（强化学习）加持的推理范式创新，特别是零样本与纯RL驱动模型的研发，展示了其优越的数学和编码性能，并在多项国际评测指标中超越竞争对手，尤其强调了后训练阶段Scaling Law的重要意义及实现方法，提出了未来在强推理、长链思考等方面的展望，以及模态穿透对未来AI发展的影响。此外，文章对当前模型面临的挑战如overthinking、多模态对齐进行了探讨，并介绍了DeepSeek-V3的基础架构和技术参数。

适合人群：适合AI从业者、研究人员、高校师生及其他对大语言模型、机器学习算法和AI安全有兴趣的专业人士阅读和学习。