
个人分享
一定要努力努力再努力
这个作者很懒,什么都没留下…
展开
-
hive表锁和分区锁
前言:关于共享锁和互斥锁可以参考下面链接:https://blog.youkuaiyun.com/mnasd/article/details/81452738解决方案针对你的分区锁进行解锁这种只能是在执行完以后发现被锁了,手动去解锁。为了以防万一,可以在脚本里添加如下几行,避免以后再发生............原创 2022-06-24 10:30:25 · 837 阅读 · 1 评论 -
hive-小文件优化
(一)小文件产生的原因1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。(二)小文件产生的影响1、首先对底层存储HDFS来说,HDFS本身就不适合存储大量小文件,小文件过多会导致namenode元数据特别大,占用太多内存,严重影响HDFS的性能2、对 hive 来说,在进行查询时,每个小文件都会当成一个块,启动一个Map任务来完成,而一个Map任务启动和初始化的时原创 2022-05-07 17:47:23 · 622 阅读 · 0 评论 -
hive数据倾斜的解决方案
hive数据倾斜的解决方案产生数据倾斜的场景数据倾斜的原因和解决方法:产生数据倾斜的场景数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务原创 2021-08-20 10:09:29 · 569 阅读 · 0 评论 -
MySQL中ON DUPLICATE KEY UPDATE的使用
需求背景:现在有Test1表,Test2表,Test3表三张表现在Test3表的数据都来源于Test1表和Test2表join后的结果现在要求从Test1表和Test2表每天都要定时将数据导入到C表需要用到判断主键或唯一索引在现有表中是否存在,存在就Update行数据,不存在就执行Insert准备工作drop table Test1;CREATE TABLE `Test1` ( `id` int(11) NOT NULL, `name` varchar(50) NOT NULL,原创 2020-09-01 11:04:41 · 233 阅读 · 0 评论 -
mysql中如何实现 row_number分组求topN的功能
业务场景:从成绩表中,查询每门课程的top2的学生的所有信息建表语句:CREATE TABLE `subject` ( `Id` int(11) NOT NULL DEFAULT '0', `subject_name` varchar(200) DEFAULT NULL, `sname` varchar(255) DEFAULT NULL, `score` int(11) DEFAULT NULL, PRIMARY KEY (`Id`)) ENGINE=InnoDB DEFAUL原创 2020-07-28 17:54:01 · 293 阅读 · 0 评论 -
SQL中常见问题and,where,having
SQL中常见的问题--and,where,having 条件使用on后面加and条件的情况on后面加where条件的情况having和where的使用场景总结:on后面加and条件的情况假设我有两张表 test_a1表示成绩表,test_a2表示学生表select * from test_a1id subject grade1 数学 89.501 英语 90.001 语文 85.002 数学 99.002 英语 59.902 语文 99.003 数学 87原创 2020-07-21 13:31:10 · 1372 阅读 · 0 评论