数据的科学处理流程
数据收集
网络数据采集
通过网络爬虫或网站的API接口获取网络公开数据,获取的数据大部分为非结构化数据,数据源非常丰富,不过采集的数据并不规范,需要进一步处理。
系统日志采集
通过企业业务平台日志系统手机业务日志数据,通过这种方式手机的数据通常为结构化数据,具有较高的可靠性和可用性。目前常用的日志收集系统主要有Scribe、Chukwa、Kkafka、Flume等
数据库采集
通过企业的数据库系统收集企业的业务数据,通过这种方式手机的数据通常为结构化数据,具有较高的规范性、可靠性和可用性。目前企业常用的关系型数据库系统主要包括SOLite、SqlSever、MySql、Oracle。除此之外,目前越来越多的企业也开始采用Redis和MongoDB这也的Nosql数据库系统。
数据处理
对采集到的数据进行必要的加工整理(清洗、集成、变换、规约),以达到数据分析的规范要求。这个步骤通常是“数据科学”任务周期中最耗时、最枯燥的阶段,但也是至关重要的一个环节。
数据存储
文本文件(txt、excel、dat等)
- 采用文件形式存储、读写数据,操作方便。
- 读写效率不高,不适用于大规模数据存储,不支持多用户并行操作
关系型数据库(SOLite、SqlSever、MySql、Oracle等)
- 采用二维表形式的关系模型来组织数据的数据库
- 支持ACID规则
- 通过SQL语言操作数据库非常方便
- 为了维护ACID规则,造成读写性能比较差,难以满足海量数据的高效读写需求
非关系型数据库(MongoDb、Redis、Hbase等)
- 采用分布式方式、使用键值对存储数据
- 读写性能高,数据扩展性好,数据类型灵活
- 不支持SQL语言,学习成本高
数据分析
根据实际的任务需求,基于收集并进行加工处理后的数据,采用统计、机器学习或深度学习的方法建立、训练并优化模型,并应用模型解决实际任务中的问题。
1万+

被折叠的 条评论
为什么被折叠?



