自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 spark sql性能如何提升

背景数仓写多最多的就是sql,作为一个资深的sql工程师,sql性能是很重要的。以我个人经验来说有几个影响sql性能的问题动态谓词下推动态join策略选择动态并行度解释一下啥意思呢?hive或者是其他的,都是利用静态的tableA和tableB的统计数据(数据量),生成执行计划,然后直接执行这将出现一些问题。比如:1.并行度可能出现问题.按照执行计划给定的并行度(比较粗犷,比如200),这会导致两个极端,我的sql经过过滤之后,一共就1条数据,然后还傻乎乎的去启动200个任务,另

2021-10-10 15:16:49 360

原创 sparksql中shuffled hash join策略

背景sparksql中又很多join策略,其中有一个是shuffled hash join.这个用的比较多,但是又说不明白其原理,我各种百度,各种谷歌,最后在stackoverflow找到了一份资料,链接如下:https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram如果不能访问,请自行梯子原理先上总图首先将tableA和tableB进行按照key,进行hash取摸,也就是重新shuffle一

2021-10-10 14:52:39 778

原创 flink savepoint

适用场景:1.升级flink版本2.程序暂停,恢复3.程序升级最麻烦的部分程序升级是最麻烦的,因为原先10个算子,我经过迭代,业务需求,我的程序编程20个了解决办法:每个指定id

2021-08-05 21:22:17 239

原创 flink checkpoint流程

checkpoint整体流程1.jobmanager会定时给source插入barrier2.source的下游当读取到该barrier时候,会将数据写入到外部存储(hdfs,rocksdb)3.当发生异常的时候(写入barrier超时,或者报错等),flink可以通过上一次的checkpoint,恢复每个operator的状态,从源头读取数据4.进而实现恢复...

2021-08-05 21:18:45 216

原创 英语学习宾语补足语

背景

2021-08-02 22:18:08 198

原创 英语学习之同位语从句

背景首先得介绍一下啥叫做同位语意思就是,一个东西,我讲两遍,第一遍,我认为你看不懂,第二遍再解释一次当第二次用一个从句的话,这个就是同位语从句与主语从句的差距在于,主语从句是 主语是个从句,而这个主语是fact,是已经存在了主语...

2021-08-02 22:00:54 271

原创 英语学习之表语从句

背景首先得了解啥是系动词举个例子He is a dog中is就是系动词,用于划等号的意思,而 dog 就是表语,用于补充主语的,也可以叫做主语补足语大量的例子系动词还有fell ,looks ,tests,seems

2021-08-02 21:47:37 189

原创 英语学习之旅-宾语从句

例子I saw that rabbit ate a carrort其中that是引导词后面的句子是宾语的成分that也可以省略,也仅限于that可以省略,其余的如who,where 之类的引导词不能省略I saw rabbit ate a carrort更复杂的例子这块有两个宾语总结一下:that的话,就是显示告诉大家这是一个从句...

2021-08-02 21:42:32 339

原创 英语学习之形容词从句

概念形容词从句,也成定语从句思维差异中文思维兔子再吃一根(我买来的)胡萝卜如果是老外看的话会这么断句兔子在吃一根我(买来的胡萝卜)复杂点就是:兔子再吃 一根我昨天从菜市场向刚从地里回来的乌龟那儿买来的胡萝卜这种例子,老外会崩溃的在英语中,一根我买来的胡罗卜a carrort that I bought这中间 有个关系词 that关系词关系词可以分成 关系代词和关系副词关系代词:that,who,whom,which,whose关系副词:where,when,

2021-08-01 23:35:21 287

原创 英语学习之从句总纲

背景从句很重要,如果要定义什么叫做从句的话,简单点就是 一个句子当另外一个句子的句子成分原理分类也可以通过次性来分类解惑形容词从句=定义从句=关系从句只是不同的书叫法不同而已...

2021-08-01 23:06:52 117

原创 英语语法学习之主语从句

概念主语是一个从句分类引导词带代入的主语从句That rabbit ate a carrort is obvious其中 that就是引导词,告诉大家下面是一个从句

2021-08-01 22:53:58 191

原创 flink 报错之旅

001 字节码校验错误java.lang.VerifyError: Stack map does not match the one at exception handler 70通过一通google,大致的意思就是你的jar包版本不对,真tmd头疼通过日志信息可以查看到是hive的版本不对我通过修改我flink程序的hive的版本为我本机环境安装的版本,测试一下,发现还是不对最后是想了想,既然是版本冲突,那我只需要删除多余的hive版本的jar包即可我还真的从flink的lib目录中找出一个h

2021-07-23 16:56:02 1275

原创 2021-07-22

flink学习之001: 状态状态概念:计算当前数据的时候,只要会用到之前的数据,则成为有状态spark对状态做的不是特别好但是也有很多人用spark streaming来解决问题,但是这个状态问题,一般是通过高速kv存储来解决,通过将有状态的数据存储到redis或者hbase来解决问题往往在实际生产环境中,由于网络等各种问题,最终到只结果乱七八糟...

2021-07-22 19:59:22 80

原创 hive mapjoin导致的生产问题

背景前天公司一个hive的一个关键任务挂掉,依赖该任务的下游一共有16000个,可谓真tmd的多由于公司电脑无法写csdn博客,也无法带出日志,只能我自己描述了log日志类似于下面info 1:35:00 Processing rows: 300w Hashtable size: 1900m Memory usage:1600m percentage: 0.87当时是我值班,我3点40看到的最后一条日志就是上述部分,看到是mapjoin,然后最后的时间戳为1:35,立马就觉得不太对,毕竟1个多

2021-07-17 18:24:22 774 5

原创 flink的ha官方解释

为啥要有ha首先jobmanager是负责资源调度和作业协调,而且这个是个单点,如果挂掉了新的任务将无法被接受旧的任务将会失败如何做到ha呢?官方的这幅图就挺不错的t0时刻 ,一active,2standbyt1时刻, active宕机,两个standby 此时,无法提供服务t2 时刻,通过zk的选举,产生了一个active,一个standy,还有一个正在重启t3时刻,也就是切换完毕如何配置配置flink-conf.ymlhigh-availability: zookeepe

2021-07-17 17:38:32 745

原创 flink split函数被官方删除

背景最近使用了最新版本的flink 1.13.1突然发现一个函数没了,split函数,这我就纳闷了,为啥没了呢被删除的原因DataStream#split() has been deprecated in favour of using Side Outputs because:It is less performant, split() creates and checks against Strings for the splitting logic.split() was and is b

2021-07-17 14:38:38 2747

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除