大数据
文章平均质量分 59
靠得住的风华飞雪
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
拉链表通用逻辑
在网上可以找到很多拉链表的文章,都讲述了拉链表是怎么回事儿,但是其实拉链表的逻辑是可以通用的,这个点却很少有人将,那我就为百度搜索贡献一篇文章吧。按照正常的逻辑,数仓的ods层表应该跟源系统保持一致,根据ods表中的create_time和modify_time来获取每日新增或更新的数据,把这部分数据放入一个中间表【dm.dwd_user_his_upsert】中,通过这些有变化的数据即可实现拉链表逻辑。但是因为有的系统建设得很早,所以不是所有的ods表都有create_time和modify_time原创 2021-07-27 22:45:49 · 1059 阅读 · 0 评论 -
spark写HBase的hfile文件,再使用bulkload方式装载时split很慢问题
要想使用spark生成hfile,然后再使用bulkload方式向HBase装载数据,你需要:首先用spark向hdfs写hfile;然后使用java代码调起bulkload程序吧hfile装载到habse数据库中。但是在整个过程中,有以下几个点是需要注意的:...原创 2021-07-02 20:03:06 · 2091 阅读 · 5 评论 -
用SQL的方式实现离线多数据源混合计算和互导!
data-hub是什么?data-hub是一个能接入多种数据源,使用SparkSQL作为通道,最终输出到多数据源的jar包,主要实现:多数据源数据使用SQL的方式进行计算,并将计算结果导入到多种数据源特点:简单:按照下文方法简单调用即可使用,如果你有任务调度平台,使用起来同样简单 强大:目前不仅支持在大数据集群中使用,还是支持本地运行,读取结构化数据时支持自定义换行符;目前支持的数据源:jdbc、hive、HBase、hdfs-file、local-file,输出数据源:jdbc、hive..原创 2021-07-02 17:37:00 · 371 阅读 · 0 评论
分享