朴素贝叶斯 · 机器学习 POD

朴素贝叶斯模型

朴素贝叶斯是一种生成式分类器。它不直接学「给定输入 $X$ ，输出标签 $Y$ 的概率」（那是判别模型），而是反过来——先学「每个类别长什么样」，再用贝叶斯定理翻转过来做预测。

P(Y = c_k \mid X) = \frac{P(Y = c_k) \cdot P(X \mid Y = c_k)}{P(X)}

分类时我们比较所有类别的后验概率，取最大的那个：

\hat{y} = \arg\max_{c_k} \; P(Y = c_k) \cdot P(X \mid Y = c_k)

分母 $P(X)$ 对所有类别相同，比较时可以丢掉。现在问题变成了：怎么估计 $P(X \mid Y = c_k)$ ？

生成模型 vs 判别模型：生成模型学联合分布 $P(X, Y)$ （或等价地学 $P(X|Y)$ 和 $P(Y)$ ），然后用贝叶斯定理推出 $P(Y|X)$ 。判别模型（如 logistic 回归、SVM）直接学 $P(Y|X)$ 或决策边界。生成模型的好处是当数据少时先验能帮忙，且能用来生成数据；缺点是需要对数据分布做假设——如果假设错了，性能会受影响。

条件独立性假设

如果 $X$ 是一个 $n$ 维特征向量 $X = (X^{(1)}, X^{(2)}, \ldots, X^{(n)})$ ，直接估计联合条件分布 $P(X^{(1)}, X^{(2)}, \ldots, X^{(n)} \mid Y)$ 需要指数级的参数——根本不可能从有限数据中学到。

朴素贝叶斯做了一个大胆的假设：给定类别 $Y$ 时，所有特征之间相互独立：

P(X \mid Y = c_k) = \prod_{j=1}^{n} P(X^{(j)} \mid Y = c_k)

这就是「朴素」的含义——假设特征之间没有任何关联。这显然是错的（邮件里「免费」和「中奖」经常同时出现），但它把参数量从指数级降到了线性级，使得模型能从少量数据中学习。

于是分类决策变成：

\hat{y} = \arg\max_{c_k} \; P(Y = c_k) \prod_{j=1}^{n} P(X^{(j)} \mid Y = c_k)

为什么错误的假设还能工作？ 因为分类只需要比较两个后验概率的大小关系，不需要它们的绝对值精确。只要独立性假设不改变哪个类别赢，分类就是对的。实证表明，即使特征高度相关，朴素贝叶斯的分类准确率通常也不差——虽然输出的概率值本身不可信。

参数估计

模型需要估计两组参数：

先验概率（极大似然估计）：

P(Y = c_k) = \frac{\text{类别 } c_k \text{ 的样本数}}{N}

条件概率（极大似然估计）：

对离散特征，统计频率即可：

P(X^{(j)} = a_{jl} \mid Y = c_k) = \frac{\text{类别 } c_k \text{ 中第 } j \text{ 个特征取值 } a_{jl} \text{ 的样本数}}{\text{类别 } c_k \text{ 的样本数}}

这就是极大似然估计——用频率估计概率。简单直接，但有一个致命问题：如果训练集中某个特征取值在某个类别下从未出现过，条件概率为零，连乘后整个后验直接归零。

拉普拉斯平滑

为了避免零概率问题，用贝叶斯估计（拉普拉斯平滑）：

P_\lambda(X^{(j)} = a_{jl} \mid Y = c_k) = \frac{\text{计数} + \lambda}{\text{类别 } c_k \text{ 样本数} + \lambda \cdot S_j}

其中 $S_j$ 是第 $j$ 个特征的可能取值个数， $\lambda \geq 0$ 是平滑参数。

$\lambda = 0$ ：退化为极大似然估计
$\lambda = 1$ ：拉普拉斯平滑（最常用）

直觉：给每个计数加一个「虚拟样本」，确保没有概率为零。这等价于对参数施加一个均匀的 Dirichlet 先验——又是贝叶斯的思想。

先验概率同样可以平滑：

P_\lambda(Y = c_k) = \frac{N_k + \lambda}{N + \lambda \cdot K}

文本分类实例

朴素贝叶斯最经典的应用是文本分类——特别是垃圾邮件过滤。

做法：把一封邮件表示为一组词的出现/不出现（词袋模型）。每个词就是一个二值特征。先验是 $P(\text{spam})$ 和 $P(\text{ham})$ ，条件概率是 $P(\text{词}_j \mid \text{spam})$ 和 $P(\text{词}_j \mid \text{ham})$ 。

下面的演示让你体验这个过程——选择邮件中出现的关键词，观察后验概率如何变化：

垃圾邮件分类器 · 朴素贝叶斯

选择邮件中出现的关键词：

条件概率 P(word|class)

免费

0.80

0.05

优惠

0.30

0.90

中奖

0.10

0.99

会议

0.85

0.40

报告

0.90

0.45

spamham

后验概率

P(spam|X)60.4%

P(ham|X)39.6%

分类结果

垃圾邮件

切换关键词，观察后验概率如何随条件独立假设下的连乘而变化。

观察几个现象：

先验的作用：当没有特别可疑的词时，先验 $P(\text{ham}) > P(\text{spam})$ 会让正常邮件占优。
一个强特征可以翻盘：「中奖」的 $P(\text{中奖}|\text{spam}) = 0.9$ ，一旦出现就大幅拉高垃圾邮件概率。
连乘效应：多个弱证据可以累积——同时出现「免费」和「优惠」，即使单独看不致命，合在一起就足以判定为垃圾邮件。
反向证据：「会议」和「报告」是正常邮件的强信号，它们的出现会把概率拉回来。

实际工程中，还需要处理：取对数避免浮点下溢（连乘大量小概率）、选择合适的特征（停用词过滤、TF-IDF 加权）、以及多项式 vs 伯努利两种词袋模型的选择。

这个想法在前沿里

朴素贝叶斯看似简单，但「生成模型 + 条件独立假设」的思想一直延续到最前沿：

垃圾邮件过滤 —— Gmail 最初的垃圾邮件过滤器就是朴素贝叶斯。今天虽然用了更复杂的模型，但 NB 仍然是 baseline 和快速原型的首选。
文本分类基线 —— 在 BERT/GPT 之前，NB + TF-IDF 在情感分析、主题分类上长期是强基线。即使在 LLM 时代，当标注数据极少时 NB 仍然有竞争力。
Naive Bayes + SVM —— Wang & Manning (2012) 发现用 NB 的对数比值作为特征权重初始化 SVM，在短文本分类上效果极好。简单到离谱，但确实管用。
概率图模型 —— 朴素贝叶斯是最简单的贝叶斯网络（一个父节点 $Y$ 连向所有子节点 $X_j$ ）。放松条件独立假设，就走向了更通用的贝叶斯网络和马尔可夫随机场。
LLM 的分类 prompt —— 当你让 GPT「判断这封邮件是否是垃圾邮件」时，模型内部隐式地在做类似的贝叶斯推理——只不过条件概率是从万亿 token 中学到的，远比手工统计的条件概率表精细。