- 博客(22)
- 收藏
- 关注
原创 MMA安装及使用优化
公司自建的Hadoop集群,后期使用阿里的Maxcompute,就需要迁移数据到新环境中,阿里提供众多的迁移方案,在经过我们的实践后,最终选择了MMA,迁移数据Hive到Maxcompute。
2022-08-02 15:25:50
1269
原创 一个实战让你搞懂Dockerfile
在认识Dockerfile的基础功能之后,即一个用基础镜像来构建新镜像的文本文件,就需要在实际工作中使用其灵活便利的操作来提升我们的工作效率了,这里演示在Tomcat里运行一个程序的过程,以此来感受Docker带给我们的便利。
2022-04-23 23:04:10
1139
原创 YARN线上动态资源调优
线上Hadoop集群资源严重不足,可能存在添加磁盘,添加CPU,添加节点的操作,那么在添加这些硬件资源之后,我们的集群是不能立马就利用上这些资源的,需要修改集群Yarn资源配置,然后使其生效。
2022-04-21 18:43:32
2149
原创 11.Flink实时项目之支付宽表
支付宽表的目的,最主要的原因是支付表没有到订单明细,支付金额没有细分到商品上, 没有办法统计商品级的支付状况。 所以本次宽表的核心就是要把支付表的信息与订单明细关联上。
2022-04-17 11:05:41
2142
原创 Dockerfile入门
在之前Docker的使用中,我们直接从仓库下载需要的镜像到本地,然后稍加配置就可以应用了,通常从仓库下载下来的镜像都是通用的,无任何私有化的东西,我们拿过来就需要加很多的配置,每次使用就很麻烦。如果我们想定制化某一个镜像可以吗?
2022-04-05 23:16:35
3289
原创 10.Flink实时项目之订单维度表关联
在上一篇中,我们已经把订单和订单明细表join完,本文将关联订单的其他维度数据,维度关联实际上就是在流中查询存储在 hbase 中的数据表。但是即使通过主键的方式查询,hbase 速度的查询也是不及流之间的 join。外部数据源的查询常常是流式计算的性能瓶颈,所以我们在查询hbase维度数据的基础上做一些优化及封装。
2022-03-31 22:38:44
3665
原创 Docker提交镜像-数据卷-可视化
在熟悉完Docker的安装及基本命令使用之后,我们开始学习下Docker的进阶操作:包括但不限于新建Docker镜像,数据卷的挂载,以及Docker的可视化等。
2022-03-29 08:54:27
189
原创 9.Flink实时项目之订单宽表
订单是统计分析的重要的对象,围绕订单有很多的维度统计需求,比如用户、地区、商品、品类、品牌等等。为了之后统计计算更加方便,减少大表之间的关联,所以在实时计算过程中将围绕订单的相关数据整合成为一张订单的宽表。那究竟哪些数据需要和订单整合在一起?
2022-03-17 22:32:50
3249
3
原创 8.Flink实时项目之CEP计算访客跳出
要想知道访客跳出明细,首先要识别哪些是跳出行为,要把这些跳出的访客最后一个访问的页面识别出来。那么就要抓住几个特征。
2022-03-09 23:00:28
2145
原创 7.Flink实时项目之独立访客开发
在上6节当中,我们已经完成了从ods层到dwd层的转换,包括日志数据和业务数据,下面我们开始做dwm层的任务。DWM 层主要服务 DWS,因为部分需求直接从 DWD 层到DWS 层中间会有一定的计算量,而且这部分计算的结果很有可能被多个 DWS 层主题复用,所以部分 DWD 会形成一层 DWM
2022-03-05 22:36:12
2379
原创 HDFS免重启挂载新磁盘
在生产环境中,集群节点磁盘大小不同,其使用率也会不同,hdfs虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),yarn的磁盘阈值检查(yarn.nodemanager.disk-health-checker.min-healthy-disks),默认是90%,超过这个值就会不健康,集群有个节点不健康,就会导致任务运行缓慢,之后任务再挤压,yarn资源被集中占用,最终影响上层服务。
2022-02-25 21:44:48
1407
原创 6.Flink实时项目之业务数据分流
在上一篇文章中,我们已经获取到了业务数据的输出流,分别是dim层维度数据的输出流,及dwd层事实数据的输出流,接下来我们要做的就是把这些输出流分别再流向对应的数据介质中,dim层流向hbase中,dwd层依旧回写到kafka中。
2022-02-21 23:23:33
1679
原创 5.Flink实时项目之业务数据准备
在上一篇文章中,我们已经把客户端的页面日志,启动日志,曝光日志分别发送到kafka对应的主题中。在本文中,我们将把业务数据也发送到对应的kafka主题中。通过maxwell采集业务数据变化,相当于是ods数据,把采集的数据发送到kafka的topic(ods_base_db_m)中,然后flink从kafka消费数据,这个过程有维度数据,就放到hbase中,其他事实数据再发送给kafka作为dwd层。flink消费kafka数据可以做一些简单的ETL处理,比如过滤空值,长度限制。
2022-02-19 21:47:48
1689
原创 4.Flink实时项目之日志数据拆分
我们前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据,但是有着完全不一样的数据结构,所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中,作为日志 DWD 层。页面日志输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光侧输出流
2022-02-14 22:57:51
1287
原创 3.Flink实时项目之流程分析及环境搭建
前面已经将日志数据(ods_base_log)及业务数据(ods_base_db_m)发送到kafka,作为ods层,接下来要做的就是通过flink消费kafka 的ods数据,进行简单的处理作为dwd层,然后再写回到kafka。
2022-02-10 22:43:48
1333
原创 设计模式1-工厂方法模式
关于工厂的设计模式,我们可以列出来这三个,既然是都和工厂有关,当然就少不了他们的比较,这里简单说下,在比较中理解以便更好的学习。本篇着重讲工厂方法模式。简单工厂模式不属于23种经典设计模式的一种,是一个专门生产某个产品的类,例如:一个键盘工厂,不管生产什么牌子的键盘,就只能生产键盘,对键盘的逻辑操作也只能在这一个类里进行。工厂方法模式是对简单工厂模式的一种抽象,可以把键盘工厂看做一个父工...
2020-03-31 20:15:13
186
原创 设计模式0-人生若自如初见
我想说不懂设计模式的程序猿不是好肥宅。设计模式好,设计模式牛,设计模式伴一生。她又近又远,近在你我,远在“情不投意不合”;有深有浅,在朦胧中尽显她的美,被其深深折服(面试),无从言语。何曾想,不身经百战,又怎知其“五脏六腑”。在此,小白想慢慢的认识她,了解她,然后相识一场到永久…设计模式概念及意义记得那是个不知道哪年哪月的什么季节的某一天的校园里,哦,原来有这么个东西,然后,就这么过去了很...
2020-03-28 22:17:03
224
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人