
数据仓库
马斯特杨
这个作者很懒,什么都没留下…
展开
-
Flink在海量消息推送实时统计场景的应用
消息推送常常在APP运营过程中,作为提高活跃,增加用户粘性的利器被广泛使用。产运的同学更希望可以看到每场推送活动后的实际统计数据。例如推送的时效性,渠道的推送成功率,到达率和用户的点击率。对于海量推送数据的统计与查询也面临着不小的挑战,本文主要对Flink实时计算技术在海量推送消息实时统计场景进行介绍原创 2020-05-30 08:59:50 · 1126 阅读 · 0 评论 -
基于Flink 的实时 精准去重方法总结
去重计算是数据分析业务里面常见的指标计算,例如网站一天的访问用户数、广告的点击用户数等等,离线计算是一个全量、一次性计算的过程通常可以通过 distinct 的方式得到去重结果,而实时计算是一种增量、长期计算过程,我们在面对不同的场景,例如数据量的大小、计算结果精准度要求等可以使用不同的方案。本篇将会基于 Flink 讲解不同的实现方案:MapState 方式去重 SQL 方式去重 HyperLogLog 方式去重 Bitmap 精确去重下面将以一个实际场景为例:计算每个广告每小时的点击用户数,原创 2020-05-30 08:39:33 · 3309 阅读 · 0 评论 -
Flink 1.10.1与 hive 2.1.*版本Catalog整合方案与事件时间使用案例
Flink 1.10 版本相对与1.9版本 在Hive支持方面做了很大的改进,Flink可以通过hiveCatalog 直接使用hive的元数据,在实际业务场景中我们可以很方便的使用FlinkSQL操作hive数据库数据。本文讲解了sql-client和idea测试环境中使用hiveCatalog进行计算。原创 2020-05-30 01:31:34 · 1041 阅读 · 0 评论 -
2020数仓面试题
题目背景现有一张用户观看记录表 ev_fs_view,基于该表需要进行相关统计分析。数据如下ymduser_idageview_timeregister_time2020040100012515min2020-04-01 13:01:232020040100023324min2020-04-01 15:06:36202004020001...原创 2020-04-27 18:08:36 · 7063 阅读 · 1 评论