EM 算法与隐变量模型 · 机器学习 POD

看不见的变量

上一篇介绍了 GMM：给每个数据点一个「属于第 k 个高斯」的概率——软分配。但我们从来没观测到「这个点到底属于哪个高斯」这件事。

这种存在但观测不到的变量，统计学叫它隐变量（latent variable）。隐变量无处不在：

有隐变量的模型通常比没有的更灵活、更贴近真实世界。但训练它们比标准 MLE 难得多——因为你需要对看不见的东西做推断。

假设我们有数据 $X$ ，隐变量 $Z$ ，参数 $\theta$ 。完整数据的对数似然 $\log p(X, Z \mid \theta)$ 通常很好算（对 GMM 就是加权高斯的 log 和）。

但我们只观测到 $X$ ，不知道 $Z$ 。要算边际似然：

\log p(X \mid \theta) = \log \sum_Z p(X, Z \mid \theta)

这个 log 里面套着 sum。对 GMM 来说就是 $\log \sum_k \pi_k \mathcal{N}(x \mid \mu_k, \Sigma_k)$ ——log 和 sum 不能交换，没有解析解，也没办法直接对 $\theta$ 求导等于零。

梯度下降当然可以做，但损失面非凸、容易卡住。EM 提供了一条更聪明的路。

EM 的核心想法出奇地简单：

既然隐变量看不见，那就先"猜"一个值；用猜的值当成观测来更新参数；然后用新参数重新猜。反复循环。

形式化地：

E 步（Expectation）：用当前参数 $\theta^{(t)}$ 计算隐变量的后验分布：

q(Z) = p(Z \mid X, \theta^{(t)})

"如果参数是这样的，那每个点最可能属于哪个簇？" —— 这就是 E 步在回答的问题。

M 步（Maximization）：把 E 步得到的 $q(Z)$ 当成已知，最大化完整数据对数似然的期望：

\theta^{(t+1)} = \arg\max_\theta \, \mathbb{E}_{q(Z)}\left[\log p(X, Z \mid \theta)\right]

M 步就是一个标准的 MLE，只不过隐变量被它的期望替代了——变成了一个加权 MLE。

这两步交替执行，参数一定会收敛到似然的一个局部最大值。为什么？下一节给出几何直觉。

EM 的收敛保证来自一个关键不等式。对任意分布 $q(Z)$ ：

\log p(X \mid \theta) = \underbrace{\mathbb{E}_q\left[\log \frac{p(X, Z \mid \theta)}{q(Z)}\right]}_{\text{ELBO}(\theta, q)} + \underbrace{\mathrm{KL}(q \| p(Z|X,\theta))}_{\geq 0}

因为 KL 散度永远非负，所以 ELBO 永远小于等于真实的 log-likelihood——它是一个下界（Evidence Lower BOund）。

EM 做的事：

每一步都让 ELBO 单调上升，而 log-likelihood 有上界（概率不能大于 1），所以 EM 必定收敛。

EM 迭代12

log p(X) (log-likelihood)ELBO (下界)

EM 每步都让 ELBO 单调上升（蓝色虚线），同时逼近真实 log-likelihood（紫色实线）。两线之间的间隔是 KL 散度——E 步把它压到零，M 步把 ELBO 推高。

拖动滑条看收敛过程。紫色实线是真实 log-likelihood，蓝色虚线是 ELBO。两者之间的间距是 KL 散度——E 步把它压到零（ELBO 触碰 LL），M 步把整体推高。

把抽象的 EM 框架落到上一篇的 GMM 上：

模型： $K$ 个高斯，权重 $\pi_k$ ，均值 $\mu_k$ ，协方差 $\Sigma_k$ 。隐变量 $z_i \in \{1, \dots, K\}$ 是点 $i$ 属于哪个高斯。

E 步——计算「责任值」 $\gamma_{ik}$ ：

\gamma_{ik} = \frac{\pi_k \, \mathcal{N}(x_i \mid \mu_k, \Sigma_k)}{\sum_{j=1}^K \pi_j \, \mathcal{N}(x_i \mid \mu_j, \Sigma_j)}

就是 Bayes 定理：给定当前参数，点 $i$ 属于簇 $k$ 的后验概率。

M 步——用 $\gamma$ 加权更新参数：

\mu_k^{\text{new}} = \frac{\sum_i \gamma_{ik} \, x_i}{\sum_i \gamma_{ik}}, \quad \Sigma_k^{\text{new}} = \frac{\sum_i \gamma_{ik} (x_i - \mu_k^{\text{new}})(x_i - \mu_k^{\text{new}})^\top}{\sum_i \gamma_{ik}}

\pi_k^{\text{new}} = \frac{1}{N} \sum_i \gamma_{ik}

直觉：每个点给每个簇一个"投票"（ $\gamma_{ik}$ ），新的均值就是加权平均，新的协方差就是加权方差，新的权重就是平均责任。

下面的交互就是这套公式在跑——点击迭代看椭圆如何一步步贴合数据：

迭代 0

EM 迭代：E 步估计每个点属于各高斯的概率（软分配），M 步更新椭圆的中心和形状。与 k-means 的硬分配不同，GMM 能捕获椭球形、大小不一的簇。

注意前几步变化很大，后面几步几乎不动——这就是 ELBO 曲线快速收敛的几何对应。

EM 算法是 1977 年 Dempster、Laird 和 Rubin 的论文提出的，至今仍是概率模型训练的核心工具。它在现代 ML 里以各种变体活着：

VAE 的训练目标就是 ELBO —— 变分自编码器不再精确计算后验（E 步），而是用一个神经网络 $q_\phi(z|x)$ 去逼近它。优化 ELBO 对 $\theta$ 和 $\phi$ 联合做梯度下降——这是「变分推断」取代精确 EM 的范例。
Diffusion Model = 层级隐变量 + ELBO —— Stable Diffusion、DALL-E 的训练目标可以写成一个多步 ELBO，每一步对应一个噪声等级的隐变量。
E 步的近似：变分推断 —— 当后验 $p(Z|X,\theta)$ 没有解析形式时（深度模型几乎都是），用参数化的 $q_\phi$ 去逼近它，把 ELBO 当损失优化。这就是 VI（Variational Inference）的全部故事。
EM 在 NLP 里的经典应用 —— Baum-Welch 算法（训练 HMM）就是 EM 的特例；IBM 对齐模型（机器翻译的开山之作）也是 EM。
Mixture of Experts 的训练 —— MoE 的 router 分配 token 给 expert，概念上就是一个 E 步（软分配）+ M 步（更新 expert 参数）的循环。

下一篇我们进入深度学习——神经网络与反向传播。你会发现神经网络不过是「线性变换 + 非线性激活」反复叠加，而训练它的链式法则跟 EM 一样优雅。