第三章 数据
3.1 数据基础
3.1.1 数据属性
- 类别型属性
- 序数型属性
- 数值型属性
| 属性类型 | 实例 |
|---|---|
| 类别型 | 销售商品的品名 |
| 序数型 | 销售时间 |
| 数值型 | 商品单价 |
3.1.2 数据的结构
- 结构化数据
可用二维表结构来逻辑表达实现,主要用于关系型数据库中。 - 非结构化数据
数据结构不规则,没有预定义的数据模型,它包括了所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和/视频信息等。 - 半结构化数据
介于结构化数据和非结构化数据之间,格式较为规范。一般为纯文本数据,包括日子、XML、JSON等格式的数据。
3.1.3 数据相似性度量
-
类别型属性
如果两个对象X,Y,均有p个类别属性,则它们的相异度定义为
d(X,Y)=(p−m)/pd(X,Y)=(p-m)/pd(X,Y)=(p−m)/p
m−X,Y中取值相同的属性数目m-X,Y中取值相同的属性数目m−X,Y中取值相同的属性数目
二元属性常常用1和0代表它的两种取值,此类属性对象常用的相异度定义有杰卡德(Jaccard)距离和海明(Hamming)距离。杰卡德距离:设对象X,Y中取值同为1的属性有p个,X取1且Y取0的属性有q个,X取0且Y取1度属性有r个,则X,Y的杰卡德距离为
d(X,Y)=(q+r)/(p+q+r)d(X,Y) = (q+r) / (p+q+r)d(X,Y)=(q+r)/(p+q+r)
杰卡德距离常用于比较两文档的相似性。
海明距离主要用于度量两个等长字符串之间的相异性,它表明两个字符串在多少个对应位置出现了不同字符。 -
比值型数值类型
距离可被用来衡量两个比值型属性对象的相异度,距离函数d(X,Y)d(X,Y)d(X,Y),其定义需满足: -
非负性
-
对称性
-
三角形不等式
几种常见的距离函数:
欧式(Euclidean)距离:用于计算欧氏空间中两点之间的直线距离。
d(X,Y)=∑i=1n(xi−yi)2d(X,Y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}d(X,Y)=i=1∑n(xi−yi)2

本文详细介绍了数据的基础知识,包括数据属性(类别型、序数型、数值型)、数据结构(结构化、非结构化、半结构化)以及数据相似性度量方法(如杰卡德距离、海明距离)。接着讨论了数据统计特征,如集中趋势(均值、中位数)和离中趋势(标准差)。此外,文章还涵盖了数据的不确定性、数据分析和探索(数据获取、数据预处理、数据存储、统计分析和数据挖掘)。最后,强调了数据可视化的价值,如直方图、散点图和箱线图等在数据探索中的应用。
最低0.47元/天 解锁文章
1069

被折叠的 条评论
为什么被折叠?



