**1.什么是大数据 **
字面意思:数据量很大的数据就是大数据
数据集的大小已经远远超过了现有传统的技术方案(数据库)工具他们的处理能力的数据。是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的特点
1. 海量化(数据量大)
2. 多样化(结构化数据 半结构化数据和非结构化数据)】
3 快速化(数据的增长速度)
4. 高价值(数据量大能做的事情就越多)
3.大数据能做什么(前提条件是在海量数据的背景下)
1. 快速查询
- 2.数据查询(超大数据的存储,单大个文件(超过了一个硬盘最大的容量))
- 快速计算(与传统方案对比 传统用了一个月 大数据用一个小时
- 实时计算(立刻马上)
- 数据挖掘(挖掘实际存在但是没有发现有价值的数据)
4.大数据处理流程
数据生产=》2.数据采集=》3.数据存储=》4.需求分析=》5.数据预处理=》6.数据计算=》7.结果数据储存=》8结果数据体现
5.大数据为什么这么快(几大模块和传统数据的比较)
- 扩展性:
传统的是纵向扩展{服务器数量不变,每个配置会越来越高}
大数据是横向扩展{服务器数量改变} - 分布式:
传统的是资源集中:集中式计算和集中式存储
大数据是资源分布:分布式(计算和存储):分配给多台计算机进行处理 - 可用性:
传统的是单份数据(存储数据的磁盘少)
大数据是多分数据(存储数据的磁盘多) - 模型:传统的是移动数据到程序端
大数据是移动程序到数据端