第三章 数据
3.1 数据基础
3.1.1 数据属性
- 类别型属性
- 序数型属性
- 数值型属性
属性类型 | 实例 |
---|---|
类别型 | 销售商品的品名 |
序数型 | 销售时间 |
数值型 | 商品单价 |
3.1.2 数据的结构
- 结构化数据
可用二维表结构来逻辑表达实现,主要用于关系型数据库中。 - 非结构化数据
数据结构不规则,没有预定义的数据模型,它包括了所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和/视频信息等。 - 半结构化数据
介于结构化数据和非结构化数据之间,格式较为规范。一般为纯文本数据,包括日子、XML、JSON等格式的数据。
3.1.3 数据相似性度量
-
类别型属性
如果两个对象X,Y,均有p个类别属性,则它们的相异度定义为
d(X,Y)=(p−m)/pd(X,Y)=(p-m)/pd(X,Y)=(p−m)/p
m−X,Y中取值相同的属性数目m-X,Y中取值相同的属性数目m−X,Y中取值相同的属性数目
二元属性常常用1和0代表它的两种取值,此类属性对象常用的相异度定义有杰卡德(Jaccard)距离和海明(Hamming)距离。杰卡德距离:设对象X,Y中取值同为1的属性有p个,X取1且Y取0的属性有q个,X取0且Y取1度属性有r个,则X,Y的杰卡德距离为
d(X,Y)=(q+r)/(p+q+r)d(X,Y) = (q+r) / (p+q+r)d(X,Y)=(q+r)/(p+q+r)
杰卡德距离常用于比较两文档的相似性。
海明距离主要用于度量两个等长字符串之间的相异性,它表明两个字符串在多少个对应位置出现了不同字符。 -
比值型数值类型
距离可被用来衡量两个比值型属性对象的相异度,距离函数d(X,Y)d(X,Y)d(X,Y),其定义需满足: -
非负性
-
对称性
-
三角形不等式
几种常见的距离函数:
欧式(Euclidean)距离:用于计算欧氏空间中两点之间的直线距离。
d(X,Y)=∑i=1n(xi−yi)2d(X,Y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}d(X,Y)=i=1∑n(xi−yi)2