大数据相关问题的深入探讨
一、大数据的定义与规模
1.1 大数据的定义
大数据的定义并非单纯取决于数据规模。从关系型数据库背景来看,“大数据”与“劣质数据”密切相关。关系型数据库要求数据准确、干净、可靠,而大数据处理的往往是定义不明确、可能不准确甚至缺失的数据,其数据结构是线性而非关系型的。当数据量足够大,使得错误数据和缺失数据在统计上变得微不足道,即使数据不完整、不准确,数据访问需求和算法仍能正常工作时,就可称之为“大数据”。
另外,也有观点认为当数据规模大到传统技术(如RDBMS)难以管理,需要借助大数据技术(如Hadoop)时,可认为是大数据。不过,这并非绝对,大数据技术在小数据集上也有优势,如适合批处理操作、能处理非结构化数据、具有水平可扩展性等。
1.2 大数据的规模示例
2012年全球数据总量为2.8泽字节,预计到2015年将达到8泽字节,且每40个月数据量翻倍。以Facebook为例,2012年每天收集500太字节数据,存储在100拍字节的数据仓库中,每天运行70000次查询,目前其数据仓库已超过300拍字节。一般来说,大数据可能是接近Facebook数据规模的一个比例,但这并非一个固定数值。
除了规模,大数据还具有以下特点:
- 数据被积极分析,而非仅仅存储。
- 构建和运行数据仓库是一项重大的基础设施项目。
- 数据以显著的速度增长。
- 数据是非结构化或结构不规则的。
Gartner将大数据定义为“高容量、高速度和/或高多样性的信息资产,需要新的处理形式”(即3V),这表明“大”不仅仅取决于数据集的大小,还与数据的速度、结构和所需的工
大数据核心技术与应用深度解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



