1.
什么是大数据?4V?
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据 = “海量数据”+“复杂类型的数据”。
大数据的4V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据(big data),或称巨量数据、海量数据;是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。在商业领域指的是所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。网络上每笔搜索,网站上每一笔交易,敲打键盘,点击鼠标的每一个输入都是数据,整理起来分析排行,不仅仅止于事后被动地了解市场,搜集起来的数据还可以引导开发更大的消费量。
2.
结构化和非结构化数据存储
SQL:
- 结构化存储,固定Schema
- 索引
- 标准化查询语言
- ACID
- 扩展性弱
NoSQL:
- Schema不固定,可以动态改变
- 没有固定查询语言
- 可以扩展到很大规模
- 高容错性
- 一般ACID在一个节点内,最终达到一致
3.
数据单位
8 bit = 1 Byte 一字节
1024 B = 1 KB (KiloByte) 千字节
1024 KB = 1 MB (MegaByte) 兆字节
1024 MB = 1 GB (GigaByte) 吉字节
1024 GB = 1 TB (TeraByte) 太字节
1024 TB = 1 PB (PetaByte) 拍字节

本文介绍了大数据处理的基本概念,包括结构化存储与非结构化存储的区别,以及大数据处理的典型系统如Dremel和Spark。MapReduce作为大数据批处理的核心,通过'分而治之'的策略简化并行计算。此外,文章还提到了实时计算、图计算的重要性和Hadoop生态系统,阐述了Hadoop各组件如HDFS、MapReduce的功能以及它们如何提供一致性、可用性和分区容错性。
最低0.47元/天 解锁文章
1009

被折叠的 条评论
为什么被折叠?



