目录
1.什么是大数据?
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和数据处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的特征4V
- 数量(volume)
- 多样性(variety)
- 速度(velocity)
- 价值(value)
3.大数据的数据结构
-
结构化数据
结构化数据具有较强的结构模式,数据本质上是“先有结构,后有数据“,可以使用关系数据库描述与存储。例如用户信息表,首先基于关系库建立一个包含用户名、性别、出生日期、住址4个属性表的表,表中插入的每位用户的数据都具备这4个属性值。
-
非结构化数据
非结构化数据的数据结构不规则,没有预定义的数据模型,并不能用数据库的二维逻辑很好的进行描述 。例如,存储在文本文件中的系统日志、图像、音频、视频等数据都属于非结构化数据。
-
半结构化数据
介于结构与非结构之间,存在半结构化数据。它是一种弱化的结构化数据形式,具有一定的结构性,但并不符合结构化数据的严格模式,仍有明确的数据大纲,包含相关的标记,用来分割实体及实体的属性,如XML、JSON等标记表现形式的数据。