2、大数据相关问题的深入探讨

大数据核心技术与应用深度解析

大数据相关问题的深入探讨

一、大数据的定义与规模

1.1 大数据的定义

大数据的定义并非单纯取决于数据规模。从关系型数据库背景来看,“大数据”与“劣质数据”密切相关。关系型数据库要求数据准确、干净、可靠,而大数据处理的往往是定义不明确、可能不准确甚至缺失的数据,其数据结构是线性而非关系型的。当数据量足够大,使得错误数据和缺失数据在统计上变得微不足道,即使数据不完整、不准确,数据访问需求和算法仍能正常工作时,就可称之为“大数据”。

另外,也有观点认为当数据规模大到传统技术(如RDBMS)难以管理,需要借助大数据技术(如Hadoop)时,可认为是大数据。不过,这并非绝对,大数据技术在小数据集上也有优势,如适合批处理操作、能处理非结构化数据、具有水平可扩展性等。

1.2 大数据的规模示例

2012年全球数据总量为2.8泽字节,预计到2015年将达到8泽字节,且每40个月数据量翻倍。以Facebook为例,2012年每天收集500太字节数据,存储在100拍字节的数据仓库中,每天运行70000次查询,目前其数据仓库已超过300拍字节。一般来说,大数据可能是接近Facebook数据规模的一个比例,但这并非一个固定数值。

除了规模,大数据还具有以下特点:
- 数据被积极分析,而非仅仅存储。
- 构建和运行数据仓库是一项重大的基础设施项目。
- 数据以显著的速度增长。
- 数据是非结构化或结构不规则的。

Gartner将大数据定义为“高容量、高速度和/或高多样性的信息资产,需要新的处理形式”(即3V),这表明“大”不仅仅取决于数据集的大小,还与数据的速度、结构和所需的工

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值