
大数据知识
文章平均质量分 82
su_bao
stay hungry, stay foolish~
展开
-
Flink入门教程(四)——窗口(二)
上一节将到标准开窗函数在实时流计算中的实现,这一节我们来讲讲window aggregate。我把这两块都放在窗口来写,因为他们本质都是一种计算的触发机制,即在满足一定情况下去启动需要的计算。不同的是window agg被定义在group by语句中,它定义出一个key,其实就是一个窗口的范围了。window agg还可以形象地看成一个一个按照一定规则排列的桶(bucket),而每一个桶就是一个window,就是一个计算单元。原创 2021-12-13 20:54:54 · 3423 阅读 · 3 评论 -
Flink入门教程(三)——窗口(一)
over window是传统数据库的标准开窗函数,在开窗函数中,每一个元素都触发一个窗口计算,每一个窗口里的元素由当前元素及其相邻元素组成,换句话说,你和你的小伙伴排成一个队伍,那么每个人和满足一定条件的相邻的人可以组成一个小组,同一个人可能属于多个小组,这也是流式数据在开窗计算时的典型现象。简单来说,对流式数据进行开窗计算是为了获取该元素及其周围元素的某个聚合结果,例如累和、最大值、最小值等,而在流式开窗计算中,触发计算的元素一定是当前窗口的最后一条记录。原创 2021-12-13 20:51:19 · 3511 阅读 · 0 评论 -
项目管理师(高级)论文
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。摘要2019年10月,我作为项目经理参与了国内某著名品牌的大数据中台项目的建设,该项目投资共1500万人民币,建设周期为1年,通过该项目的建设,客户具备了数据采集、实时离线数据存储、数据计算处理,数...原创 2021-10-09 21:00:51 · 873 阅读 · 0 评论 -
Flink菜鸟教程(二)——时间概念
上一节说到,实时计算中的数据可以看成无界流(unbounded stream),没有确切的结束时间,就像水流一样——逝者如斯夫,不舍昼夜。这也是实时数据区别于离线数据的地方,离线数据是有界的,有确定的开始时间和结束时间,因此所有的离线计算都是基于确定的有限数据展开的。一、实时计算中时间的重要性离线计算模式下,计算引擎摄入全量的需要计算的有界数据,按照确定的维度进行聚合,所有的计算过程都是确定的。但是在实时计算中却截然不同,首先实时计算是持续不断进行的,由于网络波动等情况不可避免,数据最终到达算子的时原创 2021-06-15 20:41:31 · 7565 阅读 · 4 评论 -
Flink菜鸟教程(一)——从入门到开发
从这一期开始,将分享一个新的系列——讲讲Flink菜鸟教程。Flink作为大数据实时计算引擎,受到了越来越多的关注和使用,它的高吞吐、低延迟、以及支持ExactlyOnce语义的优良特性,进一步扩大了自己的粉丝圈。随着社区的发展以及阿里巴巴对Blink(Flink的阿里巴巴版)的开源,Flink SQL的功能也逐步强大,越来越多的开发者已经选择从DataStream API和DataSet API转向了更为简单的SQL API,那么为什么要转向SQL API?主要有这几个原因:第一就是好懂啊!SQL是一原创 2021-06-15 20:36:37 · 31425 阅读 · 6 评论 -
从0到1搭建电商营销数据分析平台(七)——聊聊数据产品
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 这是我写得第一篇关于产品的文章,今天就来讲讲我眼中的电商营销数据分析平台以及我的产品观。电商营销数据分析平台,首先它是一个数据产品,它兼具算力、存储、报表展现、分析于一体;是一款以活动周期数据为主,兼顾日销数据的长周期决策产品;是一个以大数据技术为核心支撑,以业务需求和业务增长为主要导向的内部重要产品。可想而知,在互联网时代的商业决策绝...原创 2021-03-18 23:04:52 · 506 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(六)——聊聊反作弊
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 任何一个平台,无论设计得多么完美,也很难保证自己完美无瑕,毫无破绽。既然有了破绽,就可能被别有用心之人利用、伪造、篡改、甚至牟利。在互联网领域,黑灰产广泛存在,我们熟悉的刷单、刷流量、水军、僵尸粉、抢秒杀、垃圾邮件等等不过是它的冰山一角。其实电商领域也一直是黑灰产的重灾区,可以说已经形成了成熟的“产业链”,甚至在市场上已经有稳定的分工。对...原创 2021-03-18 23:00:49 · 1397 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(五)——流批一体架构
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 传统的LAMDA架构取得了辉煌的成就,大大小小的公司几乎都以LAMDA为模版构建了自己的数据仓库,但是LAMDA架构的缺陷也一直被数据人诟病——由于实时链路和离线链路采用不同的计算引擎,在数据研发的过程中,不得不开发、维护两套代码,不仅开发成本高,而且得时刻保持口径的一致,不然就会造成严重的数据质量问题。在传统的LAMDA架构中,实时与离...原创 2021-03-18 22:56:54 · 915 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(四)——实时&离线&OLAP
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。 不管是实时数据,还是离线数据,总是避不开一个问题就是“数据存储”,我们知道实时数据和离线数据在本质上有很多不同,它们对存储介质的要求也是不同的,尤其是在大数据存储的情况下,它们对数据的存储介质提出了更高的要求,同时,结果表的写入和读取还要足够快速才能满足电商数据分析平台的数据展现要求。00 插一段历史 ...原创 2021-03-18 22:51:08 · 903 阅读 · 1 评论 -
从0到1搭建电商营销数据分析平台(三)——数仓新老架构
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,助你成为数据达人。还有面试指导和内推机会。01 why一个扩展性强,灵活性高的营销数据分析平台必然离不开科学的数据分层架构,数据在数仓中经过层层清洗梳理转换,最后在应用层支撑整个产品的数据服务。那么对于一个实时性要求很强的产品,它的数据分层应该是怎样的呢?实时数仓和离线数仓如何巧妙的结合实现各个域数据的一致性,这是构建电商营销数据分析平台不得不思考的一个问题。# 插一段历史汉武原创 2021-03-18 22:45:53 · 942 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(二)——埋点与采集
欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,祝你成为数据达人。还有面试指导和内推机会。巧妇难为无米之炊,数据就是营销分析平台的米,每一个分析结论的产出都离不开数据。那么数据到底是怎么获取的,如何一步步走到我们的面前,如何熠熠闪光的展现在一个个报表上?在互联网电商领域,数以亿计的移动终端、PC网页,就是用户与系统交互的数据源泉。1、插一段历史最近非常火的电视剧《大秦赋》第四集,秦昭襄王破六国合纵,秦军兵围周王畿,逼迫周天子把象征王权原创 2020-12-23 22:58:09 · 1212 阅读 · 0 评论 -
从0到1搭建电商营销数据分析平台(一)
从0到1搭建电商营销数据分析平台(一)欢迎关注公众号——《数据三分钟》一线大厂的师兄师姐结合自己的工作实践,将数据知识浅显道来,每天三分钟,祝你成为数据达人。还有面试指导和内推机会。电商领域数据是最重要的能源,数据的力量正越来越多的影响和决定着决策。1、电商局势如今中国的电商时代呈现三足鼎立的态势:天猫淘宝深耕多年,品类齐全,头部商家悉数置于囊中;京东自营兼平台,还有高效物流加成,火力全开;拼多多后起之秀,迎头赶上,价格优势与拼团玩法疯狂助长GMV。除此之外,各类垂直电商精工细.原创 2020-12-23 22:46:32 · 1135 阅读 · 0 评论