
hive
文章平均质量分 56
zyj8170
在搜狐软件科技负责软件开发工作,主要研究方向:分布式和高并发以及大数据生态开发
展开
-
hive动态分区导致xceivercount超限,hdfs无法创建新连接
使用动态分区虽然非常方便,但会带来很多小文件,像上面这个sql,动态分区是365天,reduce是1000个,如果计算比较复杂,就会同时创建365*1000个文件。有人会觉得我可以增大xceivercount的数目,来避免这个问题,但是这个首先要重启datanode,另外,这个方案始终还是会导致大量的连接数存在,对整个集群不是很友好,还是尽量减少小文件的生成为最佳。hdfs无法创建新的文件,xceivercount超过最大设置,平时每个datanode只有100个左右的连接,突然达到8000以上。原创 2024-07-16 10:13:23 · 435 阅读 · 0 评论 -
tez0.8在hadoop2.7.1上的应用
一、配置 1、tez的编译在我的另外一篇文章中,在这里不再叙述 2、将生成的war包拷贝到hadoop的/apps/tez目录,这个目录自己定义 3、在hadoop的conf目录新建一个tez-site.xml 配置文件,内容如下: tez.lib.uris ${fs.defaultFS}/apps/tez/tez-0.8.4.tar.gz原创 2016-11-14 17:41:08 · 1375 阅读 · 0 评论 -
hive中join操作
笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join. 整个过程包含Map、Shuffle、Reduce阶原创 2016-12-22 17:51:12 · 583 阅读 · 0 评论 -
Hive ROW_NUMBER,RANK(),DENSE_RANK()
准备数据 浙江,杭州,300 浙江,宁波,150 浙江,温州,200 浙江,嘉兴,100 江苏,南京,270 江苏,苏州,299 江苏,某市,200 江苏,某某市,100 创建表 CREATE table pcp (province string,city string,people int) ROW FORMAT原创 2017-05-04 10:59:37 · 360 阅读 · 0 评论