- 博客(9)
- 收藏
- 关注
原创 Hive调优之小表Join大表
结果:这样的后果就是所有为null值的id全部都变成了相同的字符串“hive”,及其容易造成数据的倾斜(所有的key相同,相同key的数据会到同一个reduce当中去) 为了解决这种情况,我们可以通过hive的rand函数,随记的给每一个为空的id赋上一个随机值,这样就不会造成数据倾斜。有时虽然某个key为空对应的数据很多,但是相应的数据不是异常数据,必须要包含在join的结果中,此时我们可以表a中key为空的字段赋一个随机的值,使得数据随机均匀地分不到不同的reducer上。3.1、空key过滤。
2023-12-20 10:57:37
3344
1
原创 解决 Xshell 6 | xftp 6 强制更新无法打开
今天打开xftp,发现不让用了,要继续使用此程序,您必须应用最新的更新或使用新版本,必须强制升级,网上找到了xshell5去除强制升级的方法,但是把原文分享的文件替换,却打不开了,应该是xshell5 和sehll6 不兼容导致的.按照反编译操作,发现能解决问题,下面将步骤和文件放出原理是反编译文件,修改其中某个16进制再替换原文件解决方式:具体步骤 步骤1:下载C32Asm编辑器 步骤2:使用C32Asm编辑器打开nslicense.dll文件1. 找到安装目录的 `n...
2021-05-19 11:49:31
2130
原创 Hadoop 与 HBase 版本对应
Hadoop 与 HBase 版本对应参考:https://www.tqwba.com/x_d/jishu/73706.html图片来源参考官网:http://hbase.apache.org/book.html#hadoophive和hadoop、hive和spark之间版本对应关系版本信息来自于hive源码包的pom.xml:hive-3.1.2<hadoop.version>3.1.0</hadoop.version><hbase.vers
2021-05-18 15:52:49
6305
1
原创 HBase 通过MapReducer 统计数据写入MySQL中报异常:Exception in thread “main“ java.lang.IllegalAccessError
Exception in thread "main" java.lang.IllegalAccessError: class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDelegator异常如下:Exception in thread "main" java.lang.IllegalA
2021-05-09 14:19:03
1435
原创 Flume 数据流监控 Ganglia 的安装与部署
Ganglia 的安装与部署1.安装httpd 服务与 phpsudo yum -y install httpd php2.安装其它依赖sudo yum -y install rrdtool perl-rrdtool rrdtool-develsudo yum -y install apr-devel3.安装 gangliasudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.no
2021-05-03 21:18:45
202
原创 Hive 中的设置大全...还在不断更新中
hive中设置map的个数set mapred.reduce.tasks=10; #好像没啥用hive中设置为mrset hive.execution.engine=mr;
2021-04-30 16:21:46
146
1
原创 Hive 优化动态分区实现 开启reduce 需要shuffle
hive 动态分区实现 (hive-1.1.0)hive-1.1.0动态分区的默认实现是只有map没有reduce,通过执行计划就可以看出来。(执行计划如下)insert overwrite table public_t_par partition(delivery_datekey) select * from public_oi_fact_partition;hive 默认的动态分区实现,不需要shuffle那么hive如何通过map就实现了动态分区了呢,stage1根据FileInp
2021-04-30 16:05:44
1093
1
原创 Hive 大量数据动态分区导入出现异常:“如何修复”文件只能复制到0个节点而不是minreplication(=1)。“?
我最终接触到了Cloudera论坛,他们在几分钟内回答了我的问题: http://community.cloudera.com/t5/Storage-Random-Access-HDFS/Why-can-t-I-partition-a-1-gigabyte-dataset-into-300/m-p/86554#M3981 我试过J的建议,但效果很好!他是这样说的:
2021-04-30 12:08:57
1247
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人