- 博客(3)
- 资源 (21)
- 收藏
- 关注
原创 hive bucket产生的小文件问题
Hive bucket主要作用: 1. 数据sampling 2. 提升某些查询操作效率,例如mapside join 与此同时,在数据不均匀的情况下,bucket产生大量小文件,会带来很大麻烦,具体表现为: 1. 文件数目过多,给namenode带来压力 2. 在对查询条件不加限制时,启动大量map任务 3. 数据入库慢 结论: bucket,慎用!
2012-10-30 10:41:19
2854
2
原创 转义字符引发的血案(hive、bash)
hive hql:从一个字符串“p?a?b?c?ppp?hhh”中以?作为分隔符,找第5段字符串 bash程序: test.sh #!/bin/bash hive -e "select (split('p?a?b?c?ppp?hhh','?'))[4] from a limit 1;"报错:Caused by: java.util.regex.PatternSyntaxException
2012-10-23 15:22:12
19952
原创 hive中文
hadoop、hive都支持UTF-8编码,我们可以使用UTF-8编码来处理中文 以下两点需要注意: 1. 处理脚本为UTF-8格式,包括建表脚本,数据处理脚本 例如:如果在windows下使用ultraedit来写HQL程序,在保存文件的时候,保存格式为UNIX类型、UTF-8格式 2. 终端采用UTF-8显示 例如:secucecrt设置字符编码为UTF-8,字体为新宋体,字符集
2012-10-18 16:00:17
10741
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人