
flink
文章平均质量分 82
su_bao
stay hungry, stay foolish~
展开
-
Flink入门教程(四)——窗口(二)
上一节将到标准开窗函数在实时流计算中的实现,这一节我们来讲讲window aggregate。我把这两块都放在窗口来写,因为他们本质都是一种计算的触发机制,即在满足一定情况下去启动需要的计算。不同的是window agg被定义在group by语句中,它定义出一个key,其实就是一个窗口的范围了。window agg还可以形象地看成一个一个按照一定规则排列的桶(bucket),而每一个桶就是一个window,就是一个计算单元。原创 2021-12-13 20:54:54 · 3423 阅读 · 3 评论 -
Flink入门教程(三)——窗口(一)
over window是传统数据库的标准开窗函数,在开窗函数中,每一个元素都触发一个窗口计算,每一个窗口里的元素由当前元素及其相邻元素组成,换句话说,你和你的小伙伴排成一个队伍,那么每个人和满足一定条件的相邻的人可以组成一个小组,同一个人可能属于多个小组,这也是流式数据在开窗计算时的典型现象。简单来说,对流式数据进行开窗计算是为了获取该元素及其周围元素的某个聚合结果,例如累和、最大值、最小值等,而在流式开窗计算中,触发计算的元素一定是当前窗口的最后一条记录。原创 2021-12-13 20:51:19 · 3511 阅读 · 0 评论 -
Flink菜鸟教程(二)——时间概念
上一节说到,实时计算中的数据可以看成无界流(unbounded stream),没有确切的结束时间,就像水流一样——逝者如斯夫,不舍昼夜。这也是实时数据区别于离线数据的地方,离线数据是有界的,有确定的开始时间和结束时间,因此所有的离线计算都是基于确定的有限数据展开的。一、实时计算中时间的重要性离线计算模式下,计算引擎摄入全量的需要计算的有界数据,按照确定的维度进行聚合,所有的计算过程都是确定的。但是在实时计算中却截然不同,首先实时计算是持续不断进行的,由于网络波动等情况不可避免,数据最终到达算子的时原创 2021-06-15 20:41:31 · 7565 阅读 · 4 评论 -
Flink菜鸟教程(一)——从入门到开发
从这一期开始,将分享一个新的系列——讲讲Flink菜鸟教程。Flink作为大数据实时计算引擎,受到了越来越多的关注和使用,它的高吞吐、低延迟、以及支持ExactlyOnce语义的优良特性,进一步扩大了自己的粉丝圈。随着社区的发展以及阿里巴巴对Blink(Flink的阿里巴巴版)的开源,Flink SQL的功能也逐步强大,越来越多的开发者已经选择从DataStream API和DataSet API转向了更为简单的SQL API,那么为什么要转向SQL API?主要有这几个原因:第一就是好懂啊!SQL是一原创 2021-06-15 20:36:37 · 31425 阅读 · 6 评论 -
从0到1搭建电商营销数据分析平台(六)——聊聊反作弊
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 任何一个平台,无论设计得多么完美,也很难保证自己完美无瑕,毫无破绽。既然有了破绽,就可能被别有用心之人利用、伪造、篡改、甚至牟利。在互联网领域,黑灰产广泛存在,我们熟悉的刷单、刷流量、水军、僵尸粉、抢秒杀、垃圾邮件等等不过是它的冰山一角。其实电商领域也一直是黑灰产的重灾区,可以说已经形成了成熟的“产业链”,甚至在市场上已经有稳定的分工。对...原创 2021-03-18 23:00:49 · 1397 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(五)——流批一体架构
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 传统的LAMDA架构取得了辉煌的成就,大大小小的公司几乎都以LAMDA为模版构建了自己的数据仓库,但是LAMDA架构的缺陷也一直被数据人诟病——由于实时链路和离线链路采用不同的计算引擎,在数据研发的过程中,不得不开发、维护两套代码,不仅开发成本高,而且得时刻保持口径的一致,不然就会造成严重的数据质量问题。在传统的LAMDA架构中,实时与离...原创 2021-03-18 22:56:54 · 915 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(四)——实时&离线&OLAP
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 不管是实时数据,还是离线数据,总是避不开一个问题就是“数据存储”,我们知道实时数据和离线数据在本质上有很多不同,它们对存储介质的要求也是不同的,尤其是在大数据存储的情况下,它们对数据的存储介质提出了更高的要求,同时,结果表的写入和读取还要足够快速才能满足电商数据分析平台的数据展现要求。00 插一段历史 ...原创 2021-03-18 22:51:08 · 903 阅读 · 1 评论 -
从0到1搭建电商营销数据分析平台(三)——数仓新老架构
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。01 why一个扩展性强,灵活性高的营销数据分析平台必然离不开科学的数据分层架构,数据在数仓中经过层层清洗梳理转换,最后在应用层支撑整个产品的数据服务。那么对于一个实时性要求很强的产品,它的数据分层应该是怎样的呢?实时数仓和离线数仓如何巧妙的结合实现各个域数据的一致性,这是构建电商营销数据分析平台不得不思考的一个问题。# 插一段历史汉武原创 2021-03-18 22:45:53 · 942 阅读 · 0 评论