GAN 与扩散模型 · 机器学习 POD

GAN：对抗博弈生成

自编码器通过「压缩再重建」学到了数据的低维表示，VAE 更进一步让瓶颈服从先验分布从而能随机采样生成。但 2014 年 Goodfellow 提出了一种截然不同的思路——不需要显式的编码器，不需要重建损失，只需要两个网络互相博弈。

这就是 GAN（Generative Adversarial Network）。核心思想极其直觉：

生成器 $G$ ：从随机噪声 $\mathbf{z} \sim p_z$ 生成假样本 $G(\mathbf{z})$ ，目标是「骗过判别器」。
判别器 $D$ ：接收真样本 $\mathbf{x}$ 或假样本 $G(\mathbf{z})$ ，输出一个概率 $D(\cdot) \in [0, 1]$ ，判断输入是真还是假。

类比： $G$ 是造假画家， $D$ 是鉴定师。造假画家不断提升技艺，鉴定师不断提升鉴别力——两者在对抗中共同进步，直到假画和真画分不开。

GAN 的训练是一个 minimax 博弈。目标函数：

\min_G \max_D \; V(D, G) = \mathbb{E}_{\mathbf{x} \sim p_{\text{data}}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]

拆开看两部分：

$\mathbb{E}[\log D(\mathbf{x})]$ ：判别器看到真数据时希望输出高（接近 1），取 log 后尽量大。
$\mathbb{E}[\log(1 - D(G(\mathbf{z})))]$ ：判别器看到假数据时希望输出低（ $D(G(\mathbf{z})) \to 0$ ），所以 $\log(1 - D) \to 0$ 最大化。

训练过程是交替优化：

理论结果：当 $G$ 达到最优时， $p_G = p_{\text{data}}$ ，判别器对所有输入输出 $\frac{1}{2}$ ——彻底分不出真假。

GAN 的想法优美，但训练出了名地困难。三大核心问题：

模式坍塌（Mode Collapse）：生成器找到几个能骗过判别器的「安全模式」后，就只生成这几种样本，忽略数据分布的其他部分。比如在人脸生成中只产出几张类似的面孔。

梯度消失：如果判别器太强（ $D$ 一眼就看出假的）， $\log(1 - D(G(\mathbf{z})))$ 饱和在接近 $\log 1 = 0$ 的位置，生成器收不到有意义的梯度——不知道往哪个方向改进。

训练不稳定： $G$ 和 $D$ 的能力需要同步增长。一方太强则另一方崩溃，训练过程振荡甚至发散。实践中需要精心调节学习率、网络容量、训练比例。

后续工作（WGAN、Spectral Normalization、StyleGAN 等）大量精力花在稳定训练上——但问题从未彻底消失。这正是扩散模型兴起的背景。

扩散模型（Diffusion Model）的核心直觉完全不同：

把「生成」拆成很多很小的去噪步骤——每一步只做一点点事，但叠加起来就能从纯噪声变出真实数据。

前向过程（Forward / Diffusion Process） 是一条固定的马尔可夫链，逐步往数据上加高斯噪声：

q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t;\; \sqrt{1 - \beta_t}\, \mathbf{x}_{t-1},\; \beta_t \mathbf{I})

其中 $\beta_1, \beta_2, \ldots, \beta_T$ 是预设的噪声调度（schedule）。经过 $T$ 步后， $\mathbf{x}_T$ 几乎是标准高斯噪声。

一个关键性质：可以直接从 $\mathbf{x}_0$ 跳到任意 $\mathbf{x}_t$ （不用逐步算）：

q(\mathbf{x}_t | \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_t;\; \sqrt{\bar\alpha_t}\, \mathbf{x}_0,\; (1 - \bar\alpha_t)\mathbf{I})

其中 $\bar\alpha_t = \prod_{s=1}^{t}(1 - \beta_s)$ 。这让训练可以直接随机采一个 $t$ ，不用跑完整条链。

下面可以拖动滑块观察前向和反向过程：

噪声 0%

t=0t=20

原始分布 x₀拖动滑块观察纯噪声 x_T

扩散的前向过程逐步加噪把数据变为高斯噪声；反向过程学习去噪，从噪声中恢复数据结构。点击 Forward / Reverse 或拖动滑块观察。

反向过程（Reverse Process） 是我们要学的：从 $\mathbf{x}_T \sim \mathcal{N}(0, \mathbf{I})$ 逐步去噪回 $\mathbf{x}_0$ 。参数化为：

p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1};\; \boldsymbol{\mu}_\theta(\mathbf{x}_t, t),\; \sigma_t^2 \mathbf{I})

DDPM（Ho et al. 2020）的关键简化：不直接预测均值 $\boldsymbol{\mu}$ ，而是预测噪声 $\boldsymbol{\epsilon}$ 。网络 $\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$ 的训练目标：

\mathcal{L}_{\text{simple}} = \mathbb{E}_{t,\, \mathbf{x}_0,\, \boldsymbol{\epsilon}} \left[ \| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \|^2 \right]

翻译成人话：随机采一个时间步 $t$ ，往 $\mathbf{x}_0$ 加噪声 $\boldsymbol{\epsilon}$ 得到 $\mathbf{x}_t$ ，让网络猜「加了什么噪声」——猜对就行。这个损失极其简洁，训练稳定。

采样时从 $\mathbf{x}_T \sim \mathcal{N}(0, \mathbf{I})$ 开始，逐步用网络预测噪声并减去：

\mathbf{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{\beta_t}{\sqrt{1 - \bar\alpha_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right) + \sigma_t \mathbf{z}

每一步只去掉一点噪声， $T$ 步后得到干净的生成样本。

维度	GAN	扩散模型
训练方式	对抗博弈（minimax）	去噪回归（MSE）
训练稳定性	困难，需精心调参	稳定，损失单调下降
生成质量	高（尤其 StyleGAN）	更高（FID 更优）
多样性	易模式坍塌	天然覆盖全部模式
采样速度	极快（一次前向）	慢（需 $T$ 步迭代）
可控性	需额外条件机制	天然支持 classifier-free guidance

扩散模型的主要代价是采样慢——需要数十到数百步迭代。后续工作（DDIM、DPM-Solver、Consistency Model、蒸馏）都在解决这个问题，已经把步数压到 1-4 步。

GAN 和扩散模型是过去十年生成式 AI 的两大支柱，它们的思想渗透在今天所有主流生成系统中：

Stable Diffusion / DALL-E 3 / Imagen —— 全部基于 latent diffusion：先用 VAE 把图片压到 latent 空间，再在 latent 上跑扩散去噪。训练目标就是上面的 $\|\boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta\|^2$ 。
视频生成（Sora、Runway） —— 把扩散从 2D 扩展到 3D（空间 + 时间），用 3D U-Net 或 DiT 做去噪网络。核心数学不变，只是维度更高。
Consistency Model —— Distillation 的极致：把多步扩散压缩成一步生成，保留质量但获得 GAN 级别的速度。2024-2025 年的主流加速方案。
Flow Matching —— 扩散的泛化：不限于高斯噪声调度，可以设计任意从噪声到数据的概率流 ODE。Stable Diffusion 3 用的就是 rectified flow。
GAN 没有死 —— StyleGAN 仍是人脸编辑的首选（因为有平滑的 latent 空间）；GigaGAN 证明 GAN 可以做文生图；对抗训练作为正则化手段（adversarial training）在 robustness 研究中活跃。
扩散 + LLM —— 多模态大模型（GPT-4o、Gemini）用 diffusion head 生成图像/音频，用 LLM 做文本推理。两者在同一个模型中共存。

生成模型的下一步是统一：文字、图片、音频、视频、3D 都用同一套去噪框架。理解了扩散的核心——「把复杂生成拆成简单去噪」——你就理解了这个统一的基础。