数据挖掘常见问题解答与技术探讨
一、数据挖掘概述
数据挖掘从概念上讲,可以被视为数据科学家工具包中的一项技能或一组应用。具体而言,数据挖掘是在大型、复杂数据集中寻找模式的活动,它通常强调算法技术,但也可能涉及任何相关的技能、应用或方法。在美国英语的口语中,数据挖掘和数据收集常被互换使用,但二者的主要区别在于目的性。
二、常见问题及解答
2.1 K - Means聚类处理混合数值和分类数据
有用户提问,其数据集包含多个数值属性和一个分类属性,使用Octave的默认k - means聚类算法(仅适用于数值数据)时,将分类属性拆分为三个数值(二进制)变量是否正确。
- 标准k - means算法局限性 :标准k - means算法不适用于分类数据,因为分类数据的样本空间是离散的,没有自然原点,欧几里得距离函数在这样的空间中没有实际意义。
- 替代算法 :
- k - modes :由Zhexue Huang提出,适用于分类数据,但解决方案对初始条件敏感。
- k - protoypes :适用于包含分类和数值特征的混合数据,使用混合汉明距离(用于分类特征)和欧几里得距离(用于数值特征)的距离度量。
- 其他方法 :将分类属性转换为二进制值再进行k - means的方法之前也有人尝试过,但k - modes方法因上述原因更受青睐。另外,R语言中的Gower距离也可用于处理聚类中的分类数据。
超级会员免费看
订阅专栏 解锁全文
8239

被折叠的 条评论
为什么被折叠?



