一。个人笔记总结
数据的分类
维基百科(Wikipedia):规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。
美国国家标准技术研究院(NIST):具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Volocity)和变化频繁(Variability)的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。
IBM给出了一个“4V特性”的定义:强调了大数据的数量(Volume)、多样性(Variety)、速度(Volocity)和真实性(Veracity)等方面,后来也将数据价值(Value)吸收进来,成为大数据的“5V特性”。
麦肯锡全球研究机构(McKinsey Global Institute):综合了“现有技术无法处理”和“数据特征”定义,它认为“大数据是指大小超过经典数据库软件工具收集、存储、管理和分析能力的数据集,这一定义是站在经典数据库的处理能力的基础上看待大数据的。
数据获取:
-数据获取后,需要对数据进行变换、清洗等预处理,输出满足数据应用要求的数据
数据管理:
-对数据进行分类、编码、存储、索引和查询
数据分析:
-描述性分析、诊断性分析、预测性分析和规范性分析
数据可视化与交互分析:
-帮助业务人员而非数据处理专家更好的理解数据分析的结果
数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,通过一种一致的、精确的、可用的表示法,对同一种现实世界中的实体对象的不同数据做整合的过程,从而提供全面的数据共享,经过数据分析挖掘产生有价值的信息。