大数据与物联网世界的深度剖析
1. 大数据的多样性(Variety)
如今的数据呈现出多种不同的形式,包括结构化和半结构化、关系型和非关系型。过去大部分数据都存于关系型数据库的时代已一去不复返。当下,大量的数据来自传感器、设备、社交媒体等,这些数据并不适合采用结构化或关系型的格式。关键在于,如今不能只关注关系型数据了。各组织现在需要处理关系型(结构化)和非关系型(半结构化或非结构化)数据。通常,大数据解决方案中存储的大部分数据是未结构化或半结构化的。
在处理多样化的数据时,一个关键因素是决定如何以及在何处存储这些不同类型的数据。由于缺乏模式应用,使用传统的关系型数据库系统来存储半结构化或非结构化数据可能具有挑战性,而且可能不再是一种实用的解决方案。大数据解决方案通常针对需要存储和查询大量未结构化或半结构化数据以提取商业智能的场景。
2. 大数据的速度(Velocity)
数据的速度有双重含义。显而易见的含义是指数据的生成和收集速度。如今,数据正以越来越快的速度从各种来源产生和收集,包括设备、传感器以及社交媒体等应用程序。
速度的第二个含义适用于对流入数据的分析。企业和组织必须决定在数据流入时,他们需要以多快的速度理解这些数据。
为了更直观地感受这些“V”特性,以下是一些例子:
- 微软必应每月摄入超过 7PB 的数据。
- 推特社区每天生成超过 1TB 的推文数据。
- 五年前,预计数字世界将由 7.9ZB 的数据组成。
- YouTube 每分钟上传 72 小时的视频,每 4 分钟就有 1TB。
- Facebook 数据库每月摄入 500TB 的新数据。
超级会员免费看
订阅专栏 解锁全文
2375

被折叠的 条评论
为什么被折叠?



