数据分析(一)认识数据

本文介绍了数据分析的基础,包括数据对象、属性及其类型。数据对象代表实体,如顾客、患者或学生,由标称、二元、序数和数值等属性描述。属性的统计描述涉及中心趋势、散布和可视化。此外,文章探讨了相似性和相异性度量,特别是对于标称属性,通过不匹配率来计算相异性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据对象(Data Objects)

  1. 数据集由数据对象组成

  2. 一个数据对象代表一个实体(entity)
    比如:
    销售的数据库:顾客,商品,销售
    医疗数据库:患者
    大学数据库:学生、老师、课程

  3. 数据对象又称为样本、实列、数据点或对象

  4. 数据对象用属性描述

  5. 数据行对应数据对象;列对应属性

属性(Attr ibutes)

  1. 属性是一个数据字段,表示数据对象的一个特征。
    如customer_ID,name,address

  2. 类型
    标称属性(nominal)
    其值是一些符号或者事物名称
    比如:头发颜色={黑色,棕色,灰色,白色}
    二元属性(binary)
    是一种标称属性,只有两个状态:0或1
    对称的(symmetric):两种状态具有同等价值,携带相同权重
    如:性别
    非对称的(asymmetric):其状态的结果不是同样重要
    如:艾滋病的阳性和阴性结果
    对重要的结果用1编码,而另一个用0编码
    序数属性(ordinal)
    其可能的值之间具有有意义的序或者秩评定(ranking)但相继值之间的差是未知的。
    如:成绩={优,良,差}
    其中心趋势可以用它的众数和中位数表示,但不能定义均值。
    注意:标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际大小
    数值属性(numeric)
    区间标度属性(interval-scaled)
    比率标度属性(ratio-scaled)
    离散属性(discrete Attribute)
    具有有限或者无限可数个值。
    如:邮编/省份数目具有有限个值,customer_id是无限个数的。
    可以用或者不用整数表示
    连续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值