认识数据

1. 数据属性及其类型

1.1 数据类型的相关概念

  • 数据对象(记录、点、向量、模式、事件、案例、样本、观测、实体):用一组刻画对象基本特性的属性描述
  • 数据集( data set ):数据对象的集合

1.2 属性

1.2.1 属性与度量 

  • 属性( attributes )(变量、特性、字段、维):对象的性质或特征
  • 测量标度( measurement scale ):将数值或符号值与对象的属性相关联的规则(函数)
  • 测量过程使测量标度将值与对象属性相关联
  • 属性类型:测量标度的类型

    属性的值往往有如下性质

  • 相异性( distinctness )
  • 序( order )
  • 加法( addition )
  • 乘法( multiplication )

1.2.2 属性类型

标称属性( nominal )

  • 例如: ID 号,眼睛颜色,邮政编码
  • 相异性

序数属性( ordinal )

  • 例如:年级(1,2,3,4,5,6)、身高{高、中等、低),可乐{大杯、中杯、小杯}
  • 相异性、序

区间属性( interval )

  • 例如:日期,摄氏度,华氏度
  • 相异性、序、加法

比率属性( ratio )

  • 例如:长度、数量
  • 相异性、序、加法、乘法

 1.2.3 属性变换

  • 属性的类型可以用不改变属性意义的变换来描述
  • 当使用保持属性意义的变换对属性进行变换时,产生相同的结果

1.2.4 用值的个数来描述属性的类型划分

离散属性( discrete )

  • 具有一系列有限个值或者无限可数个值

连续属性( continuous )

  • 实数作为属性值

二元属性( binary )

  • 离散属性中的特例

非对称性属性( Asymmetric Attributes )

1.3 数据集

1.7.1 数据集的一般特性

维度( dimentionality )

分布( distribution )

  • 是构成数据对象的属性的各种值或值的集合出现的频率
  • 看作对数据空间各个区域中对象集中程度的描述
  • 统计学上的分布类型
  • 分布的倾斜度-------倾斜度的一个特例:稀疏性

分辨率( resolution )

1.7.2 数据集的类型

记录数据( record data )

  • 记录数据
  • 事物数据(transaction data)
  • 数据矩阵(data matrix)
  • 稀疏数据矩阵(文档-词矩阵document—term matrix)

基于图形的数据( graph - based data )

  • 图形捕获数据对象之间的联系
  • 数据对象本身用图形表示

有序数据( ordered data )

  • 时序事务数据( sequential transaction data )

  • 时间序列数据( time series data )

  • 序列数据( sequence data )

  • 空间数据( spatial data )

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值