
大数据
文章平均质量分 77
远处的一只猫
自有的生活态度
展开
-
hadoop安装[未完待续]
硬件三台虚拟机 硬件: CPU:2*3核 内存:16G 磁盘:500G(SATA) 操作系统: ubuntu 14.04原创 2016-04-06 16:26:21 · 447 阅读 · 0 评论 -
GreenPlum初窥
介绍greenplum 4.3.8.0,基于PostgreSQL 8.2.15。Greenplum is regarded as the most scalable mission-critical analytical database。GP是Pivotal公司,将PostgreSQL增强后,把多实例组合,一起提供服务的MPP架构数据库。PB级的装载能力(支持50PB) 遵从SQL-92,原创 2016-05-16 10:27:02 · 5273 阅读 · 0 评论 -
greenplum sql使用实例【未完待续】
CREATE DATABASECREATE DATABASE name [ [WITH] [OWNER [=] dbowner] [TEMPLATE [=] template] [ENCODING [=] encoding] [TABLESPACE [=] tablespac原创 2016-08-17 13:24:44 · 1389 阅读 · 0 评论 -
转greenplum中文手册,强赞
https://gp-docs-cn.github.io/docs/common/gpdb-features.html转载 2018-02-22 10:26:26 · 2333 阅读 · 0 评论 -
阿里大数据平台MaxCompute初窥
如下内容大多来自官方手册、论坛等。这个产品解决了什么问题概况MaxCompute,旧名ODPS,是阿里的一款离线计算引擎。 底层基于阿里飞天、伏羲等阿里云基础套件,MaxCompute专注于离线计算部分。 对标产品:hadoop、spark等。 目前看,发展方向应该和很多公司用spark一致,主推以丰富的SQL来解决问题。毕竟sql相比MR等有较多的用户需求。以前的No SQ...原创 2018-06-27 19:42:34 · 11975 阅读 · 0 评论 -
【转载】ETL之增量抽取方式
1、触发器方式 触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求,在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个增量日志表,ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据,同时增量日志表中抽取过的数据要及时被标记或删除。为了简单起见,增量日志表一般不存储增量数据的所有字段信息,而只是存储源表名称、更新的关...转载 2018-07-31 09:59:34 · 1135 阅读 · 0 评论 -
大数据数仓中增量数据问题讨论
目录数据增量类型介绍三种增量类型的具体介绍流水新增数据常规业务变化数据优化的业务变化数据总结数仓中增量数据的方法探讨先做个数据例子1月份2月份3月份4月份数仓分层生产数据同步到ODS层1月份ODS层表2月份ODS层表3月份ODS层表4月份ODS层表ODS→STD→DWD方案一方案二方案三数据增量类型介绍...原创 2018-09-29 10:24:20 · 7771 阅读 · 1 评论