一、大数据概论
1.1 大数据的概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
通俗来说就是海量的数据,但是也可泛指大数据技术、大数据行业、大数据应用等。
大数据技术,主要解决海量数据的存储和海量数据的分析计算问题。
1.2 大数据的特点
- 海量数据(Volume 大量)
- 数据更新快(Velocity 高速)
- 数据类型多样(Variety 多样):结构化数据(数据库、文本数据)和非结构化数据(网络日志、音频、视频、图片、地理位置信息等)
- 价值密度低(Value 低价值密度)
1.3 大数据的技术
- 数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
- 数据存取:关系数据库、NOSQL、SQL等
- 基础架构:云存储、分布式文件存储等
- 数据处理:
- 统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法