第一章 三个点
1.1数据的处理流程
数据采集 (系统日志采集,互联网数据采集,ETL) 在网上采集各种信息
数据预处理(数据清理,数据集成,数据变换,数据规约) 采集到信息杂乱,需要处理
数据存储 ( HDFS,NoSQL,云存储) 处理完数据我们要把它存储起来
数据分析与挖掘 (关联,聚类,分类,预测,回归,机器学习) 对数据分析产生价值
数据可视化 (标签云,流式地图,聚类图,信息流热力图) 将数据更好的表达出信息
1.2 大数据采集技术
1.系统日志采集
数据到来源 : 系统操作日志,Web服务器访问日志ÿ