获得技术资料内容,请访问Greenplum中文社区网站
数据的时效性
在数据爆发式增长的今天,我们已经有越来越多的数据分析工具和模型,来帮助我们全方位提取数据中的隐含价值。但问题在于,这是否意味着,任何人只要有了同样的工具、模型和数据之后,就可以获取到同样的价值呢?对于关注于算法和模型本身的学术领域来说,这一论断可能是肯定的;但对于实际生产中,答案却是否定的,因为它忽略了数据本身一个非常重要的特性,即数据的时效性。
数据时效性指的是,数据的价值不是一成不变的,数据的价值会随着数据产生后时间的增加而逐步递减。下图就是来自Nucleus Research的一份报告显示的数据价值的“半衰期”[1]。

这里借用了物理学里的半衰期一词,表示数据的价值损失到原来一半,所需要的时间。从图中可以看出,价值衰减最快的是“战术”型决策的数据,它的特点是需要几乎实时(以分钟,甚至秒为单位)的做出决策,例如根据交通状况规划路线等。
数据时效性最常见的影响是,如果捕获到的数据无法得到及时的利用,数据的价值会迅速衰减从而只能被抛弃。如何第一时间“榨取”数据的最大价值,成为今天流数据处理的一个重要问题。得益于Greenplum的大规模分布式并行计算的架构,很多在传统数据库中需要数小时来执行的查询可以由Greenplum在几分钟之内完成,从而满足了最苛刻战术型决策的要求。由此可见,具备了流数据加载能力的Greenplum无疑会帮助我们发掘出前所未有价值。
实时数据与流数据
尽管如今流数据在很多场合被认为是实时数据的同义词,但二者本身还是有严格的区别,不同的应用对其也有不同的定义和理解。这里首先对实时数据和流数据做明确的定义,并对Greenplum的流数据加载功能做一个简单的描述。
实时数据定义
实时数据这一概念其实已经出现很久,[Real-Time Systems][2]中将其分为两种,即硬实时(hard)和软实时(soft)。硬实时指的是特定事件发生后,必须