- 博客(2)
- 收藏
- 关注
原创 数据探索(一)之数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据一般是指不符合要求以及不能直接就行应用分析的数据。脏数据包括:缺失值、异常值、不一致的值、重复数据以及含有特殊符号(#、¥、*)的数据。 1.缺失值分析 缺失值是指某个记录的缺失或者记录中的某个字段信息的缺失,如某小区居住人员信息统计数据中的某些居民数据的缺失或者某位居民数据中年龄或性别的缺失。 缺失值产生的原因主要有三点:...
2020-03-15 14:24:54
1699
原创 数据挖掘基础
本文介绍数据挖掘的基本流程 1.定义挖掘目标 针对具体的数据挖掘应用的需求,首先需要明确本次的挖掘目标是什么,系统完成后能达到什么样的效果,因此,我们要分析应用领域中的各种知识,了解相关领域的情况,弄清楚用户的需求。必须明确的认识我们要干什么,再决定怎么做。 2.数据取样 明确数据挖掘目标后,需要抽取与挖掘目标相关的样本数据子集。抽取数据的标准为:相关性、可靠性、有效性。即一定要重视数据的质量,抽...
2020-03-15 09:50:46
277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅