机器学习：贝叶斯分类算法

发表于 2021-12-24 更新于 2024-10-21 分类于机器学习

贝叶斯定理

$P(X|C_i)$ 表示 X 在类别 i 下的条件概率

P(C_i|X) = \frac{P(X|C_i)}{P(X)}P(C_i)

$P(X|C_i)$ ：

此处的 X 是一个属性的取值。

贝叶斯决策的准则为：

若对任意的 j 和特定的 i

P(C_i | X) > P(C_j |X)

则 X 属于类别 i

假设 X 属于类别 c , $P(c)$ 代表类别 c 的概率， $P(X)$ 表示的是样本 X 的概率， $P(X|c)$ 表示一个物品是 c 类别的情况下它是 $X$ 的概率，则可以求出这个物品是 X 的情况下他是 c 类别的概率

P(c|X) = \frac{P(X|c)}{P(X)}P(c)

但是类别不至有一个，找到物品确定是 X 的情况下，最有可能属于的类别需要这样子计算：

max(P(c_i | X)) = max\frac{P(X|c_i) P(c)}{P(X)}

也就是遍历所有类别，一个一个算，求出里面最大概率的情况下的 $c_i$ 就被称为 极大后验假设，记作 $c_{max}$ 也就是

c_{max} = argmax_{c\in C}\frac{P(X|c_i) P(c)}{P(X)}

由于是求最大，不是求具体的数值，所以可以忽略共同因子 $P(X)$

在没有类别概率 $P(c)$ 的情况下，可以假设每个类别的概率相等，所以再忽略 P©

c_{ml} = argmax_{c \in C}P(X|c)

这就是极大似然概率

朴素的假设：属性的类条件独立性。就是在指定类别的时候，属性之间是相互独立的。

X 由属性 $\{x_1,x_2, ...,x_n\}$ 组成

想根据贝叶斯公式求解最大后验假设，我们需要先有 $P(X | C_i)$ 和 $P(C_i)$

由于朴素假设，所以可以直接计算（所有属性的条件概率累乘）

P(X|C_i) = \prod^n_{j=1}P(x_j|C_i)

最大后验假设：

i_{max} = argmax_{i \leq m}P(C_i)\prod^n_{j=1}P(x_j|C_i)

这就是朴素贝叶斯分类器进行分类的依据，类别 $i_{max}$ 就是样本 X 所属的类别。

工作过程：

遍历所有样本 X ，根据朴素假设下的贝叶斯定理，将 X 判断为最大后验假设的那个类别。

算法描述：

朴素假设太严格

用图形表示一组随变量之间的概率关系: