二 数据1

本文深入探讨了数据科学中的核心概念,包括数据类型如标称、序数、区间和比率属性,数据集的特性如维度、稀疏性和分辨率。同时,文章详细分析了数据质量的重要性,讨论了测量误差、噪声、伪像、离群点和遗漏值等问题,并提出了相应的处理策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据类型,数据的质量,使数据适合挖掘的预处理步骤,根据数据联系分析数据,

2.1 数据类型

数据集:数据对象的集合
数据对象:记录,点,向量,模式,事件,案例,样本,观测,实体
描述数据对象基本特性:属性,一种,字段,特征,维

2.1.1 属性与度量

1.属性是什么?
在这里插入图片描述
在这里插入图片描述
2.属性类型;对应数值的性质
3.属性的不同类型:标称,序数,区间,比率
在这里插入图片描述
4.用值的个数描述属性:离散,连续
5.非对称属性:非对称的二元属性

2.1.2 数据集的类型

记录数据,基于图形的数据和有序数据
1.数据集一般特性:维度(维灾难,维规约),稀疏性,分辨率
2.记录数据:事物数据,数据矩阵,
3.基于图形的数据:带有对象间联系的数据,具有图形对象的数据
4.有序数据:时序数据,序列数据(无时间戳),空间数据
5.处理非记录数据

2.2 数据质量

2.2.1 数据测量和数据收集问题

1.测量误差和数据收集误差
2.噪声和伪像
噪声:测量误差的随机部分,鲁棒算法
伪像:确定性失真
3.精度,偏倚和准确率:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.离群点(异常)
5.遗漏值:删除,估计,忽略
6.不一致的值
7.重复数据

2.2.2关于应用的问题

时效性
相关性
关于数据的知识

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值