可视化导论 - 第三章 数据- 学习笔记

本文详细介绍了数据的基础知识,包括数据属性(类别型、序数型、数值型)、数据结构(结构化、非结构化、半结构化)以及数据相似性度量方法(如杰卡德距离、海明距离)。接着讨论了数据统计特征,如集中趋势(均值、中位数)和离中趋势(标准差)。此外,文章还涵盖了数据的不确定性、数据分析和探索(数据获取、数据预处理、数据存储、统计分析和数据挖掘)。最后,强调了数据可视化的价值,如直方图、散点图和箱线图等在数据探索中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第三章 数据

3.1 数据基础

3.1.1 数据属性

  • 类别型属性
  • 序数型属性
  • 数值型属性
属性类型 实例
类别型 销售商品的品名
序数型 销售时间
数值型 商品单价

3.1.2 数据的结构

  1. 结构化数据
    可用二维表结构来逻辑表达实现,主要用于关系型数据库中。
  2. 非结构化数据
    数据结构不规则,没有预定义的数据模型,它包括了所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和/视频信息等。
  3. 半结构化数据
    介于结构化数据和非结构化数据之间,格式较为规范。一般为纯文本数据,包括日子、XML、JSON等格式的数据。

3.1.3 数据相似性度量

  • 类别型属性
    如果两个对象X,Y,均有p个类别属性,则它们的相异度定义为
    d(X,Y)=(p−m)/pd(X,Y)=(p-m)/pd(X,Y)=(pm)/p
    m−X,Y中取值相同的属性数目m-X,Y中取值相同的属性数目mX,Y
    二元属性常常用1和0代表它的两种取值,此类属性对象常用的相异度定义有杰卡德(Jaccard)距离和海明(Hamming)距离。

    杰卡德距离:设对象X,Y中取值同为1的属性有p个,X取1且Y取0的属性有q个,X取0且Y取1度属性有r个,则X,Y的杰卡德距离为
    d(X,Y)=(q+r)/(p+q+r)d(X,Y) = (q+r) / (p+q+r)d(X,Y)=(q+r)/(p+q+r)
    杰卡德距离常用于比较两文档的相似性。
    海明距离主要用于度量两个等长字符串之间的相异性,它表明两个字符串在多少个对应位置出现了不同字符。

  • 比值型数值类型
    距离可被用来衡量两个比值型属性对象的相异度,距离函数d(X,Y)d(X,Y)d(X,Y),其定义需满足:

  • 非负性

  • 对称性

  • 三角形不等式

几种常见的距离函数:
欧式(Euclidean)距离:用于计算欧氏空间中两点之间的直线距离。
d(X,Y)=∑i=1n(xi−yi)2d(X,Y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}d(X,Y)=i=1n(xiyi)2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值