Logistic 回归与最大熵 · 机器学习 POD

Logistic 分布与 sigmoid

Logistic 回归的名字来自 Logistic 分布。其 CDF 恰好是 sigmoid 函数：

\sigma(z) = \frac{1}{1 + e^{-z}}

Sigmoid 把 $(-\infty, +\infty)$ 压缩到 $(0, 1)$ ，是从"线性分数"到"概率"的天然桥梁。它有几个优美的性质：

对称性： $\sigma(-z) = 1 - \sigma(z)$
导数简洁： $\sigma'(z) = \sigma(z)(1 - \sigma(z))$
对数几率（log-odds）是线性的： $\ln \frac{\sigma(z)}{1-\sigma(z)} = z$

第三条最关键——它说明 Logistic 回归本质上是在对对数几率做线性建模。

下面的交互展示了 sigmoid 的"温度"效应。参数 $T$ 控制曲线陡峭程度： $\sigma(z/T)$ 。当 $T \to 0$ ，sigmoid 退化成阶跃函数（硬分类）；当 $T$ 很大时，输出趋向 0.5（完全不确定）。

T1.00

T = 1.00 → 标准 sigmoid

拖动 T 改变 sigmoid 的"温度"。T 越小曲线越陡（接近硬分类），T 越大越平缓（不确定性增大）。底部是 1D 数据点，虚线投影到曲线上对应的概率值。黄色虚线是决策阈值 P = 0.5。

二项 Logistic 回归

给定输入 $\mathbf{x} \in \mathbb{R}^d$ ，二项 Logistic 回归定义条件概率：

P(Y=1 \mid \mathbf{x}) = \frac{1}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}

P(Y=0 \mid \mathbf{x}) = \frac{e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}{1 + e^{-(\mathbf{w} \cdot \mathbf{x} + b)}}

决策边界是 $P(Y=1|\mathbf{x}) = 0.5$ 的超平面，即 $\mathbf{w} \cdot \mathbf{x} + b = 0$ 。几何意义： $\mathbf{w}$ 是法向量， $b$ 控制平移。

对数几率的线性性让参数解释非常直观：

\ln \frac{P(Y=1|\mathbf{x})}{P(Y=0|\mathbf{x})} = \mathbf{w} \cdot \mathbf{x} + b

特征 $x_j$ 增加 1 个单位，对数几率增加 $w_j$ 。这就是为什么 Logistic 回归在医学、金融中如此流行——系数直接可解释。

参数估计用最大似然。给定 $n$ 个样本 $\{(\mathbf{x}_i, y_i)\}$ ，对数似然为：

\ell(\mathbf{w}, b) = \sum_{i=1}^{n} \left[ y_i \log \hat{p}_i + (1-y_i) \log(1-\hat{p}_i) \right]

其中 $\hat{p}_i = \sigma(\mathbf{w} \cdot \mathbf{x}_i + b)$ 。最大化对数似然等价于最小化交叉熵损失。这是一个无约束凸优化问题，没有解析解但可以用迭代法高效求解。

多项 Logistic 回归 (softmax)

当类别 $K > 2$ 时，二项推广为多项 Logistic 回归（softmax 回归）：

P(Y=k \mid \mathbf{x}) = \frac{e^{\mathbf{w}_k \cdot \mathbf{x} + b_k}}{\sum_{j=1}^{K} e^{\mathbf{w}_j \cdot \mathbf{x} + b_j}}, \quad k = 1, \ldots, K

Softmax 保证所有类的概率和为 1、每个都非负。几何上， $K$ 类 softmax 把特征空间切成 $K$ 个凸锥形区域。类 $k$ 和类 $j$ 的决策边界是超平面 $(\mathbf{w}_k - \mathbf{w}_j) \cdot \mathbf{x} + (b_k - b_j) = 0$ 。

注意参数有冗余：所有 $\mathbf{w}_k$ 同时加一个常向量不改变概率。实践中通常令 $\mathbf{w}_K = 0$ 作为参考类，或者加 L2 正则消除冗余。

当 $K = 2$ 时，softmax 退化为 sigmoid——两者是同一个模型。

最大熵原理

换一个完全不同的出发点：最大熵原理。

在满足已知约束的所有概率分布中，选择熵最大的那个。

直觉：熵最大 = 最"均匀" = 不做任何额外假设 = 最保守的估计。

形式化：设随机变量 $X$ 的分布为 $P$ ，已知 $m$ 个约束（通常是特征函数的期望）：

\sum_x P(x) f_i(x) = \hat{E}[f_i], \quad i = 1, \ldots, m

加上归一化约束 $\sum_x P(x) = 1$ 。在这些约束下，最大化 Shannon 熵：

H(P) = -\sum_x P(x) \log P(x)

用 Lagrange 乘子法求解这个约束优化问题。构造 Lagrangian：

L = -\sum_x P(x)\log P(x) + \lambda_0\!\left(\sum_x P(x) - 1\right) + \sum_{i=1}^m \lambda_i\!\left(\sum_x P(x)f_i(x) - \hat{E}[f_i]\right)

对 $P(x)$ 求导令其为零，解出：

P^*(x) = \frac{1}{Z} \exp\!\left(\sum_{i=1}^m \lambda_i f_i(x)\right)

其中 $Z = \sum_x \exp(\sum_i \lambda_i f_i(x))$ 是配分函数（归一化常数）。

这就是指数族分布的形式——约束决定了特征函数，最大熵原理自动给出指数族。

最大熵 = Logistic 回归

现在把最大熵用于条件分布 $P(Y|X)$ 的建模。设特征函数为 $f_i(x, y)$ （联合特征），约束为经验期望匹配：

E_P[f_i(X,Y)] = \hat{E}[f_i(X,Y)]

最大化条件熵 $H(Y|X) = -\sum_{x,y} \tilde{P}(x) P(y|x) \log P(y|x)$ ，解出的最大熵模型为：

P(y \mid x) = \frac{1}{Z(x)} \exp\!\left(\sum_{i=1}^m \lambda_i f_i(x, y)\right)

其中 $Z(x) = \sum_y \exp(\sum_i \lambda_i f_i(x, y))$ 。

关键观察：当 $Y \in \{0, 1\}$ 且特征函数取 $f_i(x, y) = x_i \cdot \mathbf{1}[y=1]$ 时，上式恰好是：

P(Y=1|x) = \frac{e^{\boldsymbol{\lambda} \cdot \mathbf{x}}}{1 + e^{\boldsymbol{\lambda} \cdot \mathbf{x}}} = \sigma(\boldsymbol{\lambda} \cdot \mathbf{x})

这正是 Logistic 回归。多类情况下，最大熵模型给出 softmax。

等价性的意义：

从判别模型角度出发（直接建模 $P(Y|X)$ ），用最大似然学习——得到 Logistic 回归。
从信息论角度出发（在约束下选最不确定的分布），用最大熵原理——得到同一个模型。

两条路殊途同归，说明 Logistic 回归不只是一个"方便的选择"，而是有深刻的理论必然性。

学习算法

Logistic 回归的目标函数是凸的（Hessian 半正定），但没有解析解。常用两类算法：

1. 梯度下降（及其变体）

梯度的形式非常简洁：

\frac{\partial \ell}{\partial \mathbf{w}} = \sum_{i=1}^{n} (y_i - \hat{p}_i) \mathbf{x}_i

每个样本的贡献 = "残差 × 特征"。SGD / mini-batch SGD 是大规模问题的标准做法，现代深度学习框架中的 softmax 层训练本质就是这个。

2. 拟牛顿法（L-BFGS）

利用二阶信息加速收敛。Newton 法需要计算并求逆 $d \times d$ 的 Hessian：

H = \sum_{i=1}^{n} \hat{p}_i(1 - \hat{p}_i) \mathbf{x}_i \mathbf{x}_i^\top

即 IRLS（迭代加权最小二乘）。当 $d$ 较大时 Hessian 的存储和求逆代价太高，L-BFGS 用有限内存近似 Hessian 逆，兼顾收敛速度和内存效率。sklearn 的 LogisticRegression(solver='lbfgs') 默认就是它。

收敛性对比：

方法	每步复杂度	收敛速度	适用场景
SGD	$O(d)$	线性	$n$ 极大（百万级）
L-BFGS	$O(nd)$	超线性	中等规模， $d$ 不太大
Newton/IRLS	$O(nd^2 + d^3)$	二次	小规模， $d$ 小

这个想法在前沿里

Logistic 回归和最大熵是"简单模型"，但它们的数学结构渗透在现代深度学习的每一层：

LLM 的输出层 —— 每个 token 的预测就是一个 $V$ -类 softmax 回归： $P(\text{token}|h) = \text{softmax}(Wh)$ 。词表 $V$ 可达 10 万+，但本质和 Logistic 回归完全一样。
Temperature scaling —— GPT 采样时的温度参数 $T$ 就是本文交互中的那个 $T$ ： $\text{softmax}(z/T)$ 。 $T < 1$ 让输出更尖锐（更确定）， $T > 1$ 更平坦（更多样）。
最大熵 → 正则化 —— 最大熵等价于对参数加 L2 正则的最大似然（对偶关系）。这解释了为什么 weight decay 有效：它隐含了"不做额外假设"的归纳偏置。
指数族 → Energy-based models —— 最大熵给出的 $P \propto \exp(\sum \lambda_i f_i)$ 形式就是 Boltzmann 分布。扩散模型的 score function、RLHF 中的 reward model 都在用这个结构。
对数线性模型 → CRF —— 条件随机场是最大熵模型在序列标注上的直接推广。BERT 时代的 NER 系统顶层通常就是一个 CRF。
校准（calibration） —— Logistic 回归天生校准良好（预测概率 = 真实频率）。深度网络往往过度自信，Platt scaling（用一个 Logistic 回归做后处理）是最常用的校准手段。