在K-NN中我们通过计算距离来判断新样本的类别,在计算距离时每个特征的计量单位不同它们的数值大小会差别很大。比如人的特征有身高和年龄,身高可以是1.7米或170厘米,年龄可以是20岁。假设有两个人的身高和年龄分别为(160,19)和(180,22),如果我们使用欧式距离公式计算样本之间的距离,则有
d = ( 180 − 160 ) 2 + ( 22 − 19 ) 2 d=\sqrt{(180-160)^2+(22-19)^2} d=(180−160)2+(22−19)2
简单的数据预处理
最新推荐文章于 2024-04-13 15:39:19 发布
文章介绍了数据预处理的重要性,特别是针对K-NN算法中距离计算的公平性。讨论了数据归一化,包括最值归一化和均值方差归一化,并解释了离散(分类)变量的编码方法,如one-hot编码和dummy encoding。此外,还探讨了连续型变量的处理,如二值化和分箱,用于减少极端值影响和简化模型运算。

最低0.47元/天 解锁文章
4088

被折叠的 条评论
为什么被折叠?



