- 博客(5)
- 收藏
- 关注
原创 Unionall 的细节 版本明天上公司确认一下
今天union all的时候遇到一个报错,报错信息是udtf的报错,带个关键字好像是void相关的类型。排查过程,先确认了一下是没有用udtf函数的,可能是hive误报。然后查了一下void这个类型,但是也没有得到有用的信息。然后看udtf函数,可能和函数有关,目前sql就用到了sum函数,然后用with tmp as( 这种类型造数据测数) 用null和数字union后sum,不报错,用两个null报相同的错,确认可能是语句中出现两个的null想加导致,猜测进一步验证,确认了猜想。...
2021-05-27 23:02:40
194
原创 Mysql防止重复插入数据的三种方法
1. insert ignoreinsert ignore 会自动忽略数据库已经存在的数据(根据主键或者唯一索引判断),如果没有数据就插入数据,如果有数据就跳过插入这条数据。--插入SQL如下:insert ignore into person (id,name,age,address) values(3,'那谁',23,'甘肃省'),(4,'我的天',25,'浙江省');再次查看数据库就会发现仅插入id为4的数据,由于数据库中存在id为3的数据所以被忽略。2. replace in
2021-05-15 23:00:24
1605
1
原创 mapreuce1.0局限性
1.扩展性差--MR1.0使用jobTracker负责集群的资源管理和作业控制,这成为系统最大瓶颈,严重制约了Hadoop集群扩展性。2.可靠性差--MR1.0采用Master-Slave结构,单个namenode和多个datanode,其中master存在单点故障,一旦出现故障将导致整个集群不可用。3.资源利用率低--MR1.0采用了槽位的资源分配模型,槽位是一种粗粒度的资源划分单位,通常一个任务无法使用完槽位对应资源,且其他任务无法使用这些空闲资源。此外,Hadoop将槽位分为Map slo
2021-04-26 20:21:49
1445
原创 记录小菜鸟2021年春招求职的过程
2020年疫情解封从老家来深圳后,开始自己的跳槽之旅,但是颇为不顺。因为上一家公司待着特别安逸,工作中也没用到什么技术,靠着临时抱佛脚学了一点数仓搭建相关的知识,就开始面试了。当时找工作就是想着找个薪资高一点的工作,在快一个月的样子左右终于面试上了一家公司。进来之后让我体会到了什么是互联网行业的福报。996在这里都算不上什么,加班最严重的几个同事连续通宵几个月,每天只睡6、7小时,还没有加班工资!!!我在坚持了大半年之后(主要看在和自己上份工资的工资对比之后,看起来还不错),年底向领导提出辞职了...
2021-04-23 01:06:51
225
原创 hive窗口函数
窗口函数:row_number(),rank(),dense_rank()row_number()对指定列进行排序,若该列出现重复值,也会进行连续排列。如:rank():对指定列进行排序,若该列出现重复值,相同值会进行连续排列,不同值会跨越排名号排列。如:dense_rank():对指定列进行排序,若该列出现重复值,相同值会进行连续排列,后面不同值会和前面排列保持一致。如:...
2021-04-17 15:06:16
211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅