以下内容仅供交流学习使用,如有侵权会及时删除。
大家好!我是来自个推的栗子,感谢Greenplum中文社区!今天我给大家讲一讲个推在Greenplum中的实践。那我们就直接进入今天的分享主题《个推如何采用Greenplum提高PB级别数据处理能力》
近年来,移动互联网、物联网、云计算的快速发展,催生了海量的数据。在大数据处理方面,不同技术栈所具备的性能也有所不同。如何快速有效地处理这些体量庞大的数据,令不少开发者为之苦恼。随着Greenplum的异军突起,以往大数据仓库所存在的很多问题都得到了有效解决,Greenplum也成为新一代数据库的典型代表。
今天,我将就个推在处理庞大的数据量时,如何选择有效的技术栈进行介绍,并结合自身业务场景,分析一下Greenplum在个推中的实践。
Greenplum助手:
首先,我们来看一下Greenplum诞生的背景。
2002年,互联网数据量正处于快速增长期,一方面传统数据库难以满足当前的计算需求,另一方面传统数据库大多基于SMP架构,扩展性能差。因此面对日益增长的数据量,SMP架构难以继续支撑,开发者需要一种数据库,可以支持分布式并行数据计算能力,Greenplum便应运而生。大家都知道,和传统数据库的SMP架构不同,Greenplum是一种完全无共享(Share Nothing