30、数据分类中的距离度量与判别分析

数据分类中的距离度量与判别分析

在数据分类任务中,如何准确地将记录划分到不同的类别是一个关键问题。这涉及到对记录与类别的距离进行度量,以及运用合适的分类方法和函数。

1. 记录与类别的距离

在进行记录分类时,一个基本的思路是将记录划分到与其距离最近的类别。以通用银行对新客户是否接受个人贷款的分类为例,假设仅依据客户的收入 (x) 进行分类。从银行数据库可知,贷款接受者的平均收入为 (144.75K) 美元,非接受者的平均收入为 (66.24K) 美元。可以使用简单的欧几里得距离规则,若 (|x - 144.75| < |x - 66.24|),则将客户分类为接受者;否则,分类为非接受者。

当从单个预测变量(如收入)扩展到两个或更多预测变量时,类别的均值对应为类别的质心,即均值向量 (\mathbf{x} = [x_1, \ldots, x_p])。记录 (\mathbf{x} = [x_1, \ldots, x_p]) 与质心 (\mathbf{\bar{x}}) 的欧几里得距离定义为:
[D_{Euclidean}(\mathbf{x}, \mathbf{\bar{x}}) = \sqrt{(x_1 - \bar{x}_1)^2 + \cdots + (x_p - \bar{x}_p)^2}]

然而,使用欧几里得距离存在三个缺点:
- 依赖测量单位 :距离结果取决于测量预测变量所选择的单位。例如,以美元而非千美元来测量收入,会得到不同的距离值。
- 未考虑变量变异性 :欧几里得距离没有考虑变量的变异性。如贷款接受者和非接受者的收入标准差不同(接受者为 (3

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值