6.1 数据采集和预处理(掌握)
6.1.1 数据采集(掌握)
数据采集又称数据收集,是指用户需要收集相关数据的过程
1、采集的数据类型
(1)结构化数据:是以关系型数据库表管理的数据
(2)半结构化数据:是指非关系型模型的、有基本固定结构模式的数据
(3)非结构化数据:是指没有固定模式的数据;如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等
2、数据采集的方法
(1)传感器采集:通过传感器和相应的信息,并将这些信息按一定的规律变成电信号或其他所需的信息输出,从而获得相关数据。
(2)系统日志采集:通过平台系统读取、收集日志文件变化,系统日志记录系统中硬件、软件和系统运行情况及问题的信息。系统日志一般为流失数据,数据量非常庞大。
(3)网络采集:是指通过互联网公开采集接口或网络爬虫等方式从互联网或特定网络上获取大量数据信息的方式
(4)其他数据采集:如通过与数据服务商合作,使用特定数据集采集方式获取数据
6.1.2 数据预处理(掌握)
数据的预处理一般采用数据清洗的方法来实现。数据预处理是一个去除数据集重复记录,发现并纠正数据错误,并将数据转成符合标准的过程。
从而使数据实现准确性、完整性、一致性、唯一性、适时性、有效性等
数据预处理主要包括数据分析(从数据中发现控制数据的一般原则)、数据监测(根据清理规则及相关数据清理算法)和数据修正(手工或自动)

6.1.3 数据预处理方法(掌握)
进行预处理的数据集主要包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符等情况
1、缺失数据的预处理
数据缺失产生的原因主要分为环境原因和人为原因
(1) 删除缺失值:当出现缺失值的样本占整个样本的比例相对较小时,可以将有缺失值的样本直接丢弃
(2)

最低0.47元/天 解锁文章
1372

被折叠的 条评论
为什么被折叠?



