提升方法 · 机器学习 POD

弱学习器 → 强学习器

上一篇我们看到，单棵决策树很容易过拟合，而 Bagging 通过"独立训练 + 投票"来降低方差。提升方法（Boosting） 走了另一条路：

串行地训练弱分类器，每一轮把上一轮做错的样本"加重"，最后把所有弱分类器加权求和。

"弱分类器"指的是正确率只比随机猜稍好——比如一个决策树桩（stump），只做一次分裂。单独看它几乎没用，但 Schapire (1990) 证明了一个惊人的理论：

只要每个弱分类器的准确率 > 50%，用提升方法组合足够多轮后，训练误差可以指数级降到零。

这就是 PAC 学习框架下的"强可学习 ⇔ 弱可学习"等价定理。Boosting 给出了具体的构造性证明。

AdaBoost 算法

AdaBoost（Adaptive Boosting, Freund & Schapire 1997）是最经典的提升算法。给定训练集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^N$ ， $y_i \in \{-1, +1\}$ ：

初始化： 所有样本等权 $w_i^{(1)} = 1/N$ 。

第 $m$ 轮：

用权重分布 $\mathbf{w}^{(m)}$ 训练弱分类器 $G_m(\mathbf{x})$ 。
计算加权错误率：

e_m = \sum_{i=1}^{N} w_i^{(m)} \cdot \mathbb{1}[G_m(\mathbf{x}_i) \neq y_i]

计算弱分类器权重：

\alpha_m = \frac{1}{2} \ln \frac{1 - e_m}{e_m}

当 $e_m < 0.5$ 时 $\alpha_m > 0$ ；错误率越低，权重越大。

更新样本权重：

w_i^{(m+1)} = \frac{w_i^{(m)}}{Z_m} \cdot \exp\!\bigl(-\alpha_m \, y_i \, G_m(\mathbf{x}_i)\bigr)

其中 $Z_m$ 是归一化常数。分对的样本 $y_i G_m(\mathbf{x}_i) = +1$ ，权重乘以 $e^{-\alpha_m}$ （变小）；分错的样本乘以 $e^{+\alpha_m}$ （变大）。

最终分类器：

H(\mathbf{x}) = \text{sign}\!\left( \sum_{m=1}^{M} \alpha_m \, G_m(\mathbf{x}) \right)

关键直觉：错分样本权重增大 → 下一轮弱分类器被迫"关注"这些难例 → 新分类器专门修补旧的错误。

交互演示

下面的可视化展示 AdaBoost 的迭代过程。每点击一次 "Add Stump"，算法就找到当前权重下最优的决策树桩，并更新样本权重。注意观察：被错分的样本变得更大（权重更高），而正确分类的样本缩小。

轮次 0 / 8

点击 "Add Stump" 逐轮添加弱分类器。圆圈大小反映样本权重——被错分的样本权重更大。黄色虚线是当前弱分类器，背景色是组合分类器的决策区域。

训练误差的指数下降

AdaBoost 最漂亮的理论结果是它的训练误差上界。设最终分类器的训练误差为 $\hat{R}(H)$ ，则：

\hat{R}(H) \leq \prod_{m=1}^{M} 2\sqrt{e_m(1 - e_m)} = \prod_{m=1}^{M} \sqrt{1 - 4\gamma_m^2}

其中 $\gamma_m = \frac{1}{2} - e_m$ 是第 $m$ 轮比随机猜好多少。如果每轮 $\gamma_m \geq \gamma > 0$ ，则：

\hat{R}(H) \leq \left(\sqrt{1 - 4\gamma^2}\right)^M \leq e^{-2\gamma^2 M}

训练误差以指数速度衰减到零。只要每个弱分类器比随机好那么一点点（ $\gamma > 0$ ），堆够多轮就够了。

证明的关键在于： $Z_m = 2\sqrt{e_m(1-e_m)}$ 正好等于每轮的归一化因子，而训练误差 $\leq \prod Z_m$ 。

前向分步算法

AdaBoost 的 $\alpha_m$ 和权重更新规则看起来像"凑出来的"——背后有更深的统一解释。

前向分步加法模型（Forward Stagewise Additive Modeling） 考虑如下优化：

\min_{f} \sum_{i=1}^{N} L\bigl(y_i,\; f(\mathbf{x}_i)\bigr), \quad f(\mathbf{x}) = \sum_{m=1}^{M} \alpha_m \, b(\mathbf{x};\, \gamma_m)

其中 $b(\mathbf{x}; \gamma_m)$ 是基函数（弱学习器）， $L$ 是损失函数。直接优化所有 $M$ 个 $(\alpha_m, \gamma_m)$ 太难，前向分步的策略是：每轮只优化当前这一个 $(\alpha_m, \gamma_m)$ ，固定已有的不动。

(\alpha_m, \gamma_m) = \arg\min_{\alpha, \gamma} \sum_{i=1}^{N} L\!\left(y_i,\; f_{m-1}(\mathbf{x}_i) + \alpha \, b(\mathbf{x}_i;\, \gamma)\right)

当 $L$ 取指数损失 $L(y, f) = e^{-yf}$ 时，前向分步恰好推出 AdaBoost 的所有公式。

具体地：第 $m$ 步要最小化 $\sum_i w_i^{(m)} \exp(-y_i \alpha G_m(\mathbf{x}_i))$ ，其中 $w_i^{(m)} = e^{-y_i f_{m-1}(\mathbf{x}_i)}$ 。对 $\alpha$ 求导令其为零，得到的正是 $\alpha_m = \frac{1}{2}\ln\frac{1-e_m}{e_m}$ 。

这揭示了 AdaBoost 的本质：它是指数损失函数下的前向分步加法模型的特例。

梯度提升 GBDT

把前向分步的思路推广：如果损失函数不是指数损失（比如平方损失做回归、对数损失做分类），怎么办？

梯度提升（Gradient Boosting, Friedman 2001） 的核心想法：

每一轮不直接对样本加权，而是让新的弱学习器去拟合当前损失函数的负梯度。

设已有模型 $f_{m-1}$ ，定义第 $i$ 个样本的伪残差：

r_i^{(m)} = -\frac{\partial L(y_i, f(\mathbf{x}_i))}{\partial f(\mathbf{x}_i)}\bigg|_{f = f_{m-1}}

平方损失： $L = \frac{1}{2}(y - f)^2$ ，负梯度 $= y_i - f_{m-1}(\mathbf{x}_i)$ ——就是普通残差。
对数损失：负梯度是概率残差 $y_i - \sigma(f_{m-1}(\mathbf{x}_i))$ 。

第 $m$ 轮：用一棵回归树 $T_m$ 拟合伪残差 $\{r_i^{(m)}\}$ ，然后更新：

f_m(\mathbf{x}) = f_{m-1}(\mathbf{x}) + \eta \cdot T_m(\mathbf{x})

其中 $\eta \in (0, 1]$ 是学习率（shrinkage），用来控制每步的步长防止过拟合。

GBDT 与 AdaBoost 的联系：

	AdaBoost	GBDT
损失函数	指数损失	任意可微损失
每轮拟合目标	加权分类	负梯度（伪残差）
基学习器	分类器	回归树
更新方式	加权投票	加法模型

GBDT 是更一般的框架：把损失函数换成指数损失就退化回 AdaBoost。实际中 XGBoost、LightGBM、CatBoost 都是 GBDT 的高效工程实现，加了二阶近似（Newton step）、直方图加速、正则化等优化。

这个想法在前沿里

Boosting 的"串行纠错"和"加法模型"思想在 2026 年的 ML 版图里比以往更加活跃：

XGBoost / LightGBM 仍然统治表格数据 —— Kaggle 表格赛、工业风控、推荐排序的主力模型。GBDT + LLM embedding 的混合管线是 2025 年以来广告和推荐系统的标准架构。
Residual connections = 隐式 Boosting —— ResNet 的跳跃连接可以理解为：每一层在拟合前面所有层的"残差"。Veit et al. (2016) 证明了 ResNet 等价于指数多条浅网络的隐式集成。
知识蒸馏的递归形式 —— Born-Again Networks（BANs）反复用上一代模型的输出作为下一代的软标签，每一代都比上一代强——这就是 Boosting 的精神在蒸馏领域的重生。
LLM 的 self-refine / iterative refinement —— GPT-o1、Claude 的 chain-of-thought 迭代修正答案，本质也是"上一步的错误指导下一步的修正"——和 Boosting 的哲学同源。
梯度提升 → 函数空间梯度下降 —— GBDT 不在参数空间做梯度下降，而是在函数空间做。这个视角启发了 Neural Process、functional gradient methods 等方向。