简单来说,朴素贝叶斯就是假设每个feature是相互独立的

朴素贝叶斯用于构造分类器解决分类问题

给定一个feature vector $x=(x_1, ...,x_n)$,则在这些feature的基础上,每个类别的概率可以写成:

$$ p(C_k|x_1,...,x_n) $$

这个概率是自然的,但也是难算的,当feature的数目很多或者取值范围很大时,采用统计的方法将无法得到有效的概率估计。

当x取值范围为0,1时,n个feature则会有$2^n$种情况,也就是概率表总共会有$2^n-1$个参数。

因此,我们会用贝叶斯公式将其转换成更可计算的形式:

$$ p\left(C_{k} \mid \mathbf{x}\right)=\frac{p\left(C_{k}\right) p\left(\mathbf{x} \mid C_{k}\right)}{p(\mathbf{x})} $$

p(x)与C无关,且x已知,可以视为一个常数。分母等价于联合分布:

$$ p\left(C_{k}, x_{1}, \ldots, x_{n}\right) $$

这个联合分布可以用概率论的链式法则进行展开:

$$ \begin{aligned}p\left(C_{k}, x_{1}, \ldots, x_{n}\right) &=p\left(x_{1}, \ldots, x_{n}, C_{k}\right) \\&=p\left(x_{1} \mid x_{2}, \ldots, x_{n}, C_{k}\right) p\left(x_{2}, \ldots, x_{n}, C_{k}\right) \\&=p\left(x_{1} \mid x_{2}, \ldots, x_{n}, C_{k}\right) p\left(x_{2} \mid x_{3}, \ldots, x_{n}, C_{k}\right) p\left(x_{3}, \ldots, x_{n}, C_{k}\right) \\&=\cdots \\&=p\left(x_{1} \mid x_{2}, \ldots, x_{n}, C_{k}\right) p\left(x_{2} \mid x_{3}, \ldots, x_{n}, C_{k}\right) \cdots p\left(x_{n-1} \mid x_{n}, C_{k}\right) p\left(x_{n} \mid C_{k}\right) p\left(C_{k}\right)\end{aligned} $$

朴素贝叶斯使用条件独立假设对其进行简化:

$$ p\left(x_{i} \mid x_{i+1}, \ldots, x_{n}, C_{k}\right)=p\left(x_{i} \mid C_{k}\right) $$

因此,这个联合分布可以表示成: