扩散模型(Diffusion Models) ,几乎重塑了整个生成式 AI 的版图。从图像到音频,从视频到 3D 世界。
然而,当人们真正想理解它的原理时,却往往不得不在海量论文之间反复查找、跳转、拼凑概念。
如果你也曾厌倦了一遍又一遍地翻阅原始论文,这本专著《The Principles of Diffusion Models》,将成为你系统理解扩散模型的可靠指南与理论起点。
作者团队来自 Sony AI、OpenAI 和斯坦福大学。值得一提的是,书籍作者之一、原 OpenAI 战略探索团队负责人宋飏(Yang Song)也在作者栏中,不过,上个月,宋飏已经加入 Meta,成为 Meta 超级智能实验室(MSL)研究负责人。

本书系统梳理了扩散模型的发展脉络与核心思想,并深入解析了这些模型如何工作、为何有效、以及未来将走向何方。它不仅回顾了理论起点,也以统一的数学框架串联了变分、得分与流等多种视角。
可以说,本书既是研究者的系统参考资料,也是初学者进入扩散模型世界的友好入门读物。

论文地址:https://arxiv.org/pdf/2510.21890
不过,理解该书需要一定的基础(因为 460 多页的研究几乎每一章都贯穿着严密的数学推导与公式展开),主要面向具有深度学习基础,或具备深度生成建模初步认识的研究人员、研究生及从业者。
通过阅读本书,读者将能够清晰了解到扩散模型的起源、主要公式之间的联系,以及当今方法如何实现可控性和速度,从而催生下一代基于扩散的生成模型:流图模型族。此外,你还可以学到:
- 统一的视角,将变分自编码器 (VAE)、基于得分(基于能量)和基于流(归一化流)的方法联系起来 —— 所有这些方法都可视为变量随时间变化的简单过程。
- 引导和数值求解器如何使生成过程更快、更可控。
- 流图模型(例如,一致性模型、一致性轨迹模型、平均流)的兴起如何塑造下一代生成式人工智能。
有网友表示:「这是一本非常详尽的关于扩散模型原理的书籍。通过仔细阅读,我们可以学习扩散模型背后的所有核心概念。」

以下篇幅,我们将整理本文的基本内容和结构,简要概括这一史上最全的扩散模型理论研究的核心亮点。
核心内容
与传统生成模型直接学习从噪声到数据的映射不同,扩散模型将生成过程视为一种随时间逐步演化的变换,通过多阶段的推理不断将粗略结构细化为精致细节。围绕这一核心思想,该领域的研究者从三种主要视角对其进行了发展:变分方法(variational)、基于得分的方法(score-based)和基于流的方法(flow-based)—— 这些视角为理解与实现扩散建模提供了互补的框架。
在此基础上,研究者进一步探讨扩散模型如何实现更高效的样本生成、在生成过程中获得更强的可控性,并推动基于扩散原理的独立生成建模形式的发展。
扩散模型的基础原理
本部分回溯扩散模型的起源,系统梳理塑造该领域的三种奠基性视角。
