数据清洗笔记

本文深入探讨了数据工程中的关键步骤,包括数据采集、数据清洗、数据挖掘和数据质量评估。详细介绍了如何处理缺失值、重复数据和脏数据,以及在RDBMS中进行数据清洗的特定挑战。同时,讨论了数据挖掘的常见方法和技术,以及如何通过FME优化数据处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据采集:互联网爬虫,外业采集,已有的第三方库数据、部分标准化结构数据,统计资料……

数据清洗:
RDBMS数据清洗
清洗的主要内容:
缺失:根据其它字段生成或表连接生成或根据数学模型计算
重复:去重,把冗余的数据清理
脏数据:文本里有不符合要求的字符需要剔除,如特殊符号(标点符号),空格,全角半角,乱码等
数据挖掘:从已有数据,用数学模型,计算出的结果,常见有:机器学习 深度学习 NLP等方法(贝叶斯分类,监督分类,非监督分类,聚类,统计方法,神经网络算法......)

数据质量评价

数据质量检查分属性与空间的检查
空间拓扑
点是否不在面内(一定空间范围内) 线是否存在自相交 、悬挂线、未及  面:是否存在自相交, 面与面之间的相交、 包含与被包含、 空隙等
属性:
完整性:数据清洗转换前后,信息不丢失。逻辑连接关系保持(表连接能连上),数据量出入不变,不存在缺失。
一致性:字段内容是否符合要求,数值范围,空间坐标范围,字符串内容等
准确性:存的数据是否存在错误,异常
及时性:时间间隔,更新周期是否符要求

对于RDBMS而言
字段是否存在以下问题:字段类型是否正确以及内容是否存在候选键/主键重复 ,非主属性字段是否有空值/缺失/空字符空格,异常,错误……(对应数据库字段约束即用户定义完整性)
表与表之间的关系,连接关系 (外键 参照完整性)


FME优化方法:
原则:以最少的步骤完成任务,尽可能地精简。
1 减少不必要的连接featuremerger,避免相同的转换器出现重复太多
2 优化逻辑
3 使用数据库SQLexecutor 语句执行,利用数据库处理能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兰小莫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值