奇异值分解 · 机器学习 POD

SVD 定义

在线性代数那篇我们看到：对称矩阵可以用特征分解拆成「旋转→缩放→旋转回来」。但大多数实际矩阵不是方阵，也不对称——特征分解不存在。

奇异值分解（Singular Value Decomposition, SVD） 解决了这个问题：对任意 $m \times n$ 矩阵 $A$ ，都存在分解：

A = U \Sigma V^\top

其中：

$U$ 是 $m \times m$ 正交矩阵（ $U^\top U = I$ ），列向量叫左奇异向量。
$\Sigma$ 是 $m \times n$ 对角矩阵，对角元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 叫奇异值（ $r = \text{rank}(A)$ ）。
$V$ 是 $n \times n$ 正交矩阵（ $V^\top V = I$ ），列向量叫右奇异向量。

直觉上，SVD 把一个复杂的线性变换精确分解成三个简单操作的组合：

\underbrace{U}_{\text{旋转}_2} \cdot \underbrace{\Sigma}_{\text{缩放}} \cdot \underbrace{V^\top}_{\text{旋转}_1}

和特征分解的关系： $A^\top A$ 的特征向量就是 $V$ ， $AA^\top$ 的特征向量就是 $U$ ，奇异值是对应特征值的平方根。

以 2D 为例。一个 $2 \times 2$ 矩阵 $A$ 把单位圆变成椭圆。SVD 告诉我们这个变形永远可以拆成三步：

$\sigma_1$ 是椭圆的长半轴长度， $\sigma_2$ 是短半轴长度。它们量化了矩阵在每个主方向上的「作用强度」。

试试下面的演示——点击步骤按钮逐步观察单位圆如何被分解成三步变形：

分解步骤

单位圆（原始空间）

奇异值

σ₁ = 2.558

σ₂ = 0.977

预设矩阵 A

矩阵 A

[

2.001.000.501.50

]

SVD 将任意矩阵分解为三步： Vᵀ 旋转 → Σ 缩放 → U 旋转。点击步骤按钮逐步观察单位圆的变形。

这个几何图景的关键洞察：无论矩阵多么复杂，它的本质动作只有旋转和缩放。奇异值告诉你缩放了多少，奇异向量告诉你沿哪个方向。

完整 SVD 保留了所有奇异值。但实际中很多矩阵的奇异值迅速衰减——前几个很大，后面几乎为零。这意味着矩阵的大部分「能量」集中在少数方向上。

紧奇异值分解：只保留 $r$ 个非零奇异值（ $r = \text{rank}(A)$ ）：

A = U_r \Sigma_r V_r^\top

其中 $U_r$ 是 $m \times r$ ， $\Sigma_r$ 是 $r \times r$ ， $V_r$ 是 $n \times r$ 。这是精确表示，没有信息损失，只是去掉了零空间的部分。

截断奇异值分解：只保留前 $k$ 个最大的奇异值（ $k < r$ ）：

A_k = U_k \Sigma_k V_k^\top = \sum_{i=1}^{k} \sigma_i \mathbf{u}_i \mathbf{v}_i^\top

这就有损了—— $A_k \neq A$ 。但信息丢失量是可控的：被丢弃的奇异值越小，近似越精确。

截断 SVD 不只是「一种」低秩近似——它是最优的。

Eckart-Young 定理：在所有秩不超过 $k$ 的矩阵中， $A_k$ （截断 SVD）最小化与原矩阵的 Frobenius 范数差：

A_k = \arg\min_{\text{rank}(B) \leq k} \|A - B\|_F

误差恰好等于被截掉的奇异值：

\|A - A_k\|_F = \sqrt{\sigma_{k+1}^2 + \sigma_{k+2}^2 + \cdots + \sigma_r^2}

翻译成直觉：想用 $k$ 个「方向」来近似一个矩阵，最佳策略就是保留奇异值最大的 $k$ 个方向。 这是一个极其优雅的结论——你不需要搜索所有可能的低秩矩阵，SVD 直接给出答案。

衡量截断 SVD 保留了多少信息，常用能量比：

\frac{\sigma_1^2 + \cdots + \sigma_k^2}{\sigma_1^2 + \cdots + \sigma_r^2}

实际中，很多自然数据（图像、文本矩阵）的奇异值呈指数衰减，保留前 5%–10% 的奇异值就能捕获 90% 以上的能量。

一张 $m \times n$ 灰度图片是一个矩阵。完整存储需要 $mn$ 个数字。做秩- $k$ 截断 SVD 后只需存储 $U_k$ （ $mk$ 个数）+ $\Sigma_k$ （ $k$ 个数）+ $V_k^\top$ （ $kn$ 个数）= $k(m + n + 1)$ 个数字。

当 $k \ll \min(m, n)$ 时，压缩比非常可观。例如 $1000 \times 1000$ 的图片，取 $k = 50$ ，压缩到原来的 $\approx 10\%$ 存储量，而人眼几乎看不出差异。

词-文档矩阵 $X$ （ $m$ 个词 × $n$ 个文档）做截断 SVD，得到词的低维表示和文档的低维表示。在这个低维空间里，语义相近的词（即使字面不同）会被映射到相近的向量——这是 Word2Vec 之前最重要的词向量方法。

SVD 的「低秩近似」思想在 2026 年的大模型时代非但没有过时，反而无处不在：

LoRA 微调 —— 冻住预训练权重 $W$ ，只训练低秩增量 $\Delta W = BA$ （ $B$ 是 $d \times r$ ， $A$ 是 $r \times d$ ， $r = 8$ ）。这本质上就是假设微调的变化是低秩的——SVD 告诉我们：如果奇异值衰减快，低秩近似就足够好。
权重压缩 / 模型剪枝 —— 对训练好的权重矩阵做 SVD，保留前 $k$ 个奇异值，把 $d \times d$ 的矩阵压成两个 $d \times k$ 的矩阵。推理速度和显存消耗都能大幅降低。
PCA = SVD 的特例 —— 对中心化数据矩阵 $X$ 做 SVD，右奇异向量就是主成分方向。t-SNE / UMAP 降维之前通常先做 PCA 到 50 维，用的就是截断 SVD。
Embedding 初始化 —— 大型嵌入表的训练常用 SVD 做冷启动（如 GloVe 本质是对共现矩阵做加权 SVD）。
Attention 的低秩结构 —— 实证研究发现 Transformer 的注意力矩阵往往是低秩的。Linformer (2020) 直接用投影压缩 Key/Value 的序列维度，本质是强制注意力矩阵为低秩——和截断 SVD 的哲学一致。
数值稳定性 —— SVD 是计算矩阵秩、条件数、伪逆的黄金标准。numpy.linalg.pinv 底层就是 SVD。

从数学到工程，SVD 的核心信息只有一句：大多数矩阵的有效维度远低于它的名义维度——找到那几个重要的方向，就够了。