主成分分析 · 机器学习 POD

基本想法：找方差最大的方向

假设你有一团高维数据——比如 100 维的用户行为向量。你想「看一看」它的结构，但人眼只能看 2D 或 3D。问题是：投影到哪个方向，信息丢得最少？

PCA 的回答很直接：选数据散布最广（方差最大）的方向。方差大 = 数据在这个方向上差异大 = 信息量大。如果某个方向方差接近零，说明所有数据点在这个维度几乎一样——丢掉也不影响分辨力。

几何直觉：一团数据在高维空间形成一个"椭球"。PCA 就是找到这个椭球的长轴方向——先找最长的那根轴（PC1），再找与它垂直的次长轴（PC2），依此类推。

方差解释比

PC185.8%

PC214.2%

PC1：最大方差方向（协方差矩阵最大特征值对应的特征向量）

PC2：与 PC1 正交的剩余方差方向

点击「投影」将所有点压到 PC1 轴上——降维

PCA 找到数据散布最广的方向（PC1），投影后只保留这个方向的信息——用一个维度捕获了 85.8% 的总方差。

数学推导：协方差矩阵的特征值分解

设 $n$ 个样本 $\mathbf{x}_1, \ldots, \mathbf{x}_n \in \mathbb{R}^d$ ，已中心化（均值为零）。我们要找一个单位向量 $\mathbf{w}$ 使投影后的方差最大。

投影后的方差：

\text{Var} = \frac{1}{n} \sum_{i=1}^{n} (\mathbf{w}^\top \mathbf{x}_i)^2 = \mathbf{w}^\top \left( \frac{1}{n} \sum_i \mathbf{x}_i \mathbf{x}_i^\top \right) \mathbf{w} = \mathbf{w}^\top \Sigma\, \mathbf{w}

其中 $\Sigma = \frac{1}{n} X^\top X$ 是样本协方差矩阵（ $d \times d$ ，对称半正定）。

第一主成分就是如下优化问题的解：

\max_{\mathbf{w}} \; \mathbf{w}^\top \Sigma\, \mathbf{w} \quad \text{s.t.} \quad \|\mathbf{w}\| = 1

用拉格朗日乘子法： $\nabla_\mathbf{w} [\mathbf{w}^\top \Sigma \mathbf{w} - \lambda(\mathbf{w}^\top \mathbf{w} - 1)] = 0$ ，得到：

\Sigma\, \mathbf{w} = \lambda\, \mathbf{w}

这正是特征值方程！最大化目标值 $\mathbf{w}^\top \Sigma \mathbf{w} = \lambda$ ，所以第一主成分对应 $\Sigma$ 的最大特征值 $\lambda_1$ 及其特征向量 $\mathbf{w}_1$ 。

前 $k$ 个主成分：取 $\Sigma$ 最大的 $k$ 个特征值 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_k$ 对应的特征向量 $\mathbf{w}_1, \ldots, \mathbf{w}_k$ 。由于 $\Sigma$ 对称，这些特征向量两两正交——它们构成降维子空间的正交基。

降维投影：将 $d$ 维数据投到这 $k$ 个方向上：

\mathbf{z}_i = W_k^\top \mathbf{x}_i \in \mathbb{R}^k, \quad W_k = [\mathbf{w}_1, \ldots, \mathbf{w}_k]

方差解释比

每个主成分捕获多少信息？第 $k$ 个主成分解释的方差占比为：

\rho_k = \frac{\lambda_k}{\sum_{i=1}^{d} \lambda_i}

前 $k$ 个主成分的累积方差解释比：

R(k) = \frac{\sum_{i=1}^{k} \lambda_i}{\sum_{i=1}^{d} \lambda_i}

实际中常选 $k$ 使 $R(k) \geq 0.95$ ——保留 95% 的方差。这是 PCA 降维中最常用的选择准则。

例如上面的 2D 演示里，PC1 一个方向就解释了约 93% 的方差，说明数据几乎是一维的——沿 PC1 排列，PC2 方向只有噪声级别的波动。

PCA 与 SVD 的关系

对中心化数据矩阵 $X \in \mathbb{R}^{n \times d}$ （每行一个样本）做 SVD：

X = U \Sigma V^\top

其中 $U \in \mathbb{R}^{n \times n}$ 正交， $\Sigma$ 是对角矩阵（奇异值）， $V \in \mathbb{R}^{d \times d}$ 正交。

协方差矩阵：

\frac{1}{n} X^\top X = \frac{1}{n} V \Sigma^\top U^\top U \Sigma V^\top = V \left( \frac{\Sigma^2}{n} \right) V^\top

对比 $\Sigma_{\text{cov}} = V \Lambda V^\top$ （特征值分解），我们得到：

$V$ 的列就是主成分方向（即 $\Sigma_{\text{cov}}$ 的特征向量）
特征值 $\lambda_i = \sigma_i^2 / n$ （奇异值的平方除以样本数）
$XV = U\Sigma$ 的前 $k$ 列就是降维后的坐标

实际中 sklearn.decomposition.PCA 内部就是对 $X$ 做 SVD（而非直接求协方差矩阵的特征值），因为 SVD 在数值上更稳定，而且当 $n < d$ 时更高效。

降维应用

高维数据可视化：把 784 维的 MNIST 手写数字投到 2D（取前两个主成分），不同数字自然聚成簇——不需要训练任何模型就能"看见"结构。

去噪：信号通常在前几个主成分上，噪声分散在所有方向。只保留前 $k$ 个主成分再重建：

\hat{\mathbf{x}} = W_k W_k^\top \mathbf{x}

就等于把小方差方向（噪声）砍掉了。

特征预处理：高维特征（如 NLP 的词频向量）先做 PCA 降到合理维度，再送入下游模型——既加速训练，又减少过拟合。

局限性：PCA 只能发现线性结构。如果数据呈弯曲流形（如"瑞士卷"），线性投影会把不同区域叠在一起。此时需要 t-SNE、UMAP 等非线性降维方法。

这个想法在前沿里

PCA 的核心操作——协方差矩阵 + 特征值分解——在现代深度学习中以各种形态持续出现：

Embedding 降维可视化 —— 对 GPT / BERT 的 token embedding 做 PCA 投影到 2D/3D，观察语义聚类结构。这是最快的 embedding 诊断方法。
LoRA 与低秩结构 —— LoRA 假设权重更新 $\Delta W$ 是低秩的。PCA 正是找低秩近似的最优方法（Eckart-Young 定理）：保留前 $k$ 个主成分等价于秩 $k$ 的最佳逼近。
白化（Whitening） —— BatchNorm 的前身。对特征做 PCA 后再除以 $\sqrt{\lambda_i}$ ，使每个方向方差 = 1。Transformer 中的 LayerNorm 是这个思路的简化版。
谱方法与图神经网络 —— 图的拉普拉斯矩阵的前几个特征向量 = 图上的"主成分"。谱聚类、GCN 的位置编码都建立在这个基础上。
Diffusion 模型中的噪声结构 —— 去噪本质上是估计数据的主方差方向，然后沿着那些方向"恢复"信号。低频成分（大特征值方向）先恢复，高频细节（小特征值方向）最后恢复。
模型压缩 —— 对大模型的权重矩阵做 SVD/PCA 截断（只保留最大的 $k$ 个奇异值），是一种经典的模型压缩策略，与剪枝和量化互补。

PCA 的思想简单到极致：找到数据的主轴，丢掉噪声方向。这个直觉在任何涉及"降维"、"压缩"、"去噪"的场景里都适用。