自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Unionall 的细节 版本明天上公司确认一下

今天union all的时候遇到一个报错,报错信息是udtf的报错,带个关键字好像是void相关的类型。排查过程,先确认了一下是没有用udtf函数的,可能是hive误报。然后查了一下void这个类型,但是也没有得到有用的信息。然后看udtf函数,可能和函数有关,目前sql就用到了sum函数,然后用with tmp as( 这种类型造数据测数) 用null和数字union后sum,不报错,用两个null报相同的错,确认可能是语句中出现两个的null想加导致,猜测进一步验证,确认了猜想。...

2021-05-27 23:02:40 194

原创 Mysql防止重复插入数据的三种方法

1. insert ignoreinsert ignore 会自动忽略数据库已经存在的数据(根据主键或者唯一索引判断),如果没有数据就插入数据,如果有数据就跳过插入这条数据。--插入SQL如下:insert ignore into person (id,name,age,address) values(3,'那谁',23,'甘肃省'),(4,'我的天',25,'浙江省');再次查看数据库就会发现仅插入id为4的数据,由于数据库中存在id为3的数据所以被忽略。2. replace in

2021-05-15 23:00:24 1605 1

原创 mapreuce1.0局限性

1.扩展性差--MR1.0使用jobTracker负责集群的资源管理和作业控制,这成为系统最大瓶颈,严重制约了Hadoop集群扩展性。2.可靠性差--MR1.0采用Master-Slave结构,单个namenode和多个datanode,其中master存在单点故障,一旦出现故障将导致整个集群不可用。3.资源利用率低--MR1.0采用了槽位的资源分配模型,槽位是一种粗粒度的资源划分单位,通常一个任务无法使用完槽位对应资源,且其他任务无法使用这些空闲资源。此外,Hadoop将槽位分为Map slo

2021-04-26 20:21:49 1445

原创 记录小菜鸟2021年春招求职的过程

2020年疫情解封从老家来深圳后,开始自己的跳槽之旅,但是颇为不顺。因为上一家公司待着特别安逸,工作中也没用到什么技术,靠着临时抱佛脚学了一点数仓搭建相关的知识,就开始面试了。当时找工作就是想着找个薪资高一点的工作,在快一个月的样子左右终于面试上了一家公司。进来之后让我体会到了什么是互联网行业的福报。996在这里都算不上什么,加班最严重的几个同事连续通宵几个月,每天只睡6、7小时,还没有加班工资!!!我在坚持了大半年之后(主要看在和自己上份工资的工资对比之后,看起来还不错),年底向领导提出辞职了...

2021-04-23 01:06:51 225

原创 hive窗口函数

窗口函数:row_number(),rank(),dense_rank()row_number()对指定列进行排序,若该列出现重复值,也会进行连续排列。如:rank():对指定列进行排序,若该列出现重复值,相同值会进行连续排列,不同值会跨越排名号排列。如:dense_rank():对指定列进行排序,若该列出现重复值,相同值会进行连续排列,后面不同值会和前面排列保持一致。如:...

2021-04-17 15:06:16 211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除