分类（2）：k-最近邻、贝叶斯分类器

最新推荐文章于 2024-01-10 10:12:39 发布

longgb123

最新推荐文章于 2024-01-10 10:12:39 发布

阅读量3.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习数据挖掘

本文链接：https://blog.youkuaiyun.com/longgb123/article/details/53004621

机器学习专栏收录该内容

15 篇文章

订阅专栏

本文介绍了两种常见的机器学习分类算法：k-最近邻(k-Nearest Neighbor)和贝叶斯分类器(Bayesian Classifier)。k-最近邻算法通过计算待分类实例与训练集中的实例距离，选取距离最近的k个实例进行多数表决来实现分类。而贝叶斯分类器基于概率论中的贝叶斯定理，包括朴素贝叶斯分类器和贝叶斯置信网络，适用于处理有噪声的数据及缺失属性的情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原版：http://www.jianshu.com/p/6b97cc5b9ae6

一、k-最近邻

1、算法

积极学习方法（eager learner）：通过训练样本建立模型。
消极学习方法（lazy learner）：实例的学习，k-最近邻就属于这种。

k-最近邻算法：

令k是最近邻数目，D是训练样例集合
for z in 样例集合:
  计算 z 和每个样例 (x,y) 的距离 d
  选择离 z 前 k 个近距离的点，为集合 Dt
  z的标记 y 为 Dt 中类较多的

k-最近邻采用多数表决的方法，该算法对 k 敏感：

y' = a r g m a x v \sum (x i, y i) \in D t I (v = y i)

$y'=argmax_{v}\sum_{(x_{i},y_{i})\in D_{t}} I(v=y_{i})$
所以，需要降低 k 的影响，一种途径就是对距离的不同加权，如下，因为距离远的影响要弱一些，以距离平方的倒数为权值。

y' = a r g m a x v \sum (x i, y i) \in D t w i \times I (v = y i), w i = 1 d ( x ' , x i ) 2

$y'=argmax_{v}\sum_{(x_{i},y_{i})\in D_{t}}w_{i}\times I(v=y_{i}),w_{i}=\frac{1}{d(x',x_{i})^{2}}$

2、最近邻分类器特征：

（1）实例的学习，不需要建模，但分类测试的开销很大。
（2）当k比较小的时候，对噪声非常敏感。
（3）可以生成任意决策边界。

二、贝叶斯分类器

1、贝叶斯公式

P (Y j | X) = P ( X | Y j ) P ( Y j ) P ( X ) = P ( X | Y j ) P ( Y j ) \sum n i = 1 P ( X | Y i ) P ( Y i )

$P(Y_{j}|X)=\frac{P(X|Y_{j})P(Y_{j})}{P(X)}=\frac{P(X|Y_{j})P(Y_{j})}{\sum_{i=1}^{n}P(X|Y_{i})P(Y_{i})}$

2、朴素贝叶斯

（1）条件独立性：

给定 Z，X 条件独立于 Y:

P (X | Y, Z) = P (X | Z)

$P(X|Y,Z)=P(X|Z)$
则有：

P (X, Y | Z) = P ( Z , Y , X ) P ( Z ) = P ( Z , Y , X ) P ( Y , Z ) P ( Y , Z ) P ( Z ) = P (X | Y, Z) P (Y | Z) = P (X | Z) P (Y | Z)

$P(X,Y|Z)=\frac{P(Z,Y,X)}{P(Z)}=\frac{P(Z,Y,X)}{P(Y,Z)}\frac{P(Y,Z)}{P(Z)}=P(X|Y,Z)P(Y|Z)=P(X|Z)P(Y|Z)$

（2）朴素贝叶斯分类器：

P (Y | X) = P ( X | Y ) P ( Y ) P ( X ) = P ( X 1 , . . . , X d ) P ( Y ) P ( X ) = P ( Y ) \prod d i = 1 P ( X i | Y ) P ( X )

$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X_{1},...,X_{d})P(Y)}{P(X)}=\frac{P(Y)\prod_{i=1}^{d}P(X_{i}|Y)}{P(X)}$

（3）连续属性的条件概率：

<1>把每个连续属性离散化，用相应的区间去替代原来的属性，但若某一个区间的样本数目过少，不容易做出可靠的估计。
<2>可以假设连续变量服从正态分布，Xi的概率等于：

P (X i = x i | Y = y j) = 1 2 π - - \sqrt σ i j e - ( x i - μ i j ) 2 2 σ i j

$P(X_{i}=x_{i}|Y=y_{j})=\frac{1}{\sqrt{2\pi}\sigma_{ij}}e^{-\frac{(x_{i}-\mu_{ij})^{2}}{2\sigma_{ij}}}$
其中 mu 用样本均值估计， sigma 用样本方差估计。

（4）朴素贝叶斯举例：

拖欠贷款为 Y 变量。

测试记录X=（有房=否，婚姻状况=已婚，年收入=120K），求后验概率P（No|X）、P（Yes|X）。
总的 Y 可以知道，P（Yes）=0.3，P（No）=0.7。则：

P（X | No）=P（有房=否 | No）x P（婚姻状况=已婚 | No）x P（年收入=120K | No）=0.0024
P（X | Yes）= P（有房=否 | Yes）x P（婚姻状况=已婚 | Yes）x P（年收入=120K | Yes）=0

因为P（No|X）>P（Yes|X），所以该测试分类为No，不拖欠贷款。
上例中，P（婚姻状况=已婚 | Yes）=0，可能会出现极端现象，为了防止出现0，朴素贝叶斯没法正确分类，可以使用 m 估计（m-estimate）：

P (x i | y j) = n c + m p n + m

$P(x_{i}|y_{j})=\frac{n_{c}+mp}{n+m}$
n 为 yi 的实例总数，nc 为 yi 中 xi 的实例数目，p 是用户指定，m 为等价样本大小的参数。上面的计算：P（婚姻状况=已婚 | Yes）=(0+3 x 1/3)/(3+3)=1/6，而不是0。

（4）朴素贝叶斯特征：

对于噪声点，朴素贝叶斯是健壮的。也可以处理属性值遗漏问题。
无关属性，朴素贝叶斯是健壮的。对于相关属性，可能会降低分类性能。

3、贝叶斯置信网络（Bayesian belief networks，BBN）

（1）模型表示：

两个主要成分：

一个有向无环图（DAG），表示变量之间的关系；
一个概率表，把各个结点和它的直接父节点关联起来。

性质1：条件独立
贝叶斯网络中的一个结点，如果它的父母结点已知，则它条件独立于它的所有非后代结点。

如图（b），给定C，A 条件独立于 B 和 D。
除了网络拓扑结构要求的条件独立外，每个结点还关联一个概率表。

（1）如果结点 X 没有父母结点，则表中只包含先验概率P(X);
（2）如果结点 X 只有一个父母结点 Y，则表中包含先验概率P(X | Y);
（3）如果结点 X 有多个父母结点{Y1，Y2…，Yk}，则表中只包含先验概率P(X|Y1，Y2…，Yk);

下图是一个贝叶斯置信网络。

（2）建立模型：

贝叶斯网络拓扑结构的生成算法：

设T=（X1，X2，...Xd）表示变量的全序
for j=1 to d do
  令 XTj 表示 T 中第 j 个次序最高的变量
  令A（XTj）={XT1，XT2，...XTj-1} 表示排在 XTj 前面的变量的集合
  从A（XTj）中去掉对 Xj 没有影响的变量（使用先验知识）
  在 XTj 和 A（XTj） 中的剩余变量之间画弧

考虑到图5_03，经过循环后，得到的如下概率：