Hive
KNIFE_PAN
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 基本操作
需求假设一批文件,内容格式001,192.168.1.101002,198.135.1.236002,156.124.138.9.......其中第一列代表用户uid,第二列代表用户登陆ip。要对这些文件进行分析,计算共有多少人登陆,在一个ip下共有几人登陆,等等hive解决如果你不建立数据库,那么你的表放在默认数据库default中,你加载的数据在hdfs中位置为原创 2014-12-19 08:56:11 · 1102 阅读 · 0 评论 -
Hive 修改表添加分区(add partition)和 加载数据时添加分区 的区别
假定有hive中有两个表empl_inn(管理表)和empl_ext(外部表),他们都有分区(logdate string);1.对于外部表 empl_ext alter table empl_ext add partition (logdate=‘2015-02-26’) location ‘hdfs://nameservice1/vod_pb/’; 执行添原创 2015-02-26 15:17:09 · 46016 阅读 · 4 评论 -
hive 表连接操作注意事项
1.hive jion 只支持等值连接2.hive jion目前不支持在on子句中使用谓词or3.on子句中的分区过滤条件在outer join中是无效的,但是在inner join中是可以用的4.hive 中不支持in和not in对于in在hive中可以使用left semi join实现,但是要注意这种方式在select 和where 子句中不能引用右边表的字段例原创 2015-03-12 11:28:12 · 2325 阅读 · 0 评论 -
文章标题
Hive 自定 InputFormat 解析 Hadoop MR 产生的SequenceFile 文件 注意: Hive 使用的MRV1 1.定义InputFormatpackage cn.gitv.bi.log.analysis.io;import java.io.IOException;import org.apache.hadoop.fs.FileStatus;import org.ap原创 2015-03-31 18:09:53 · 623 阅读 · 0 评论 -
Hive 表被锁定,无法删除表
如果当hive 执行一个脚本查询的过程中,由于你的脚本进程遇到不可控的原因被杀死,这时你再去删除hive表中你查询关联到的表是无法删除的。 你可以使用命令 show locks tablename;查看你的表状态hive> show locks days_album_click_play;OKpb_log@days_album_click_play EXCLUSIVE可以看到此表有一个E原创 2015-04-03 08:16:43 · 11658 阅读 · 0 评论 -
Java 反射由实体类生产hive或mysql表对应字段
如果一个实体类字段特别多,那么创建对应的RDBMS对应的表会让我感到抓狂,可以利用Java反射特性,生产对应字段 1.创建一个借口,定义一些常量public interface Constants { /**参数默认值*/ public static final String DEFAULT_PARAM_VAL = ""; /**中文字符集*/ public stat原创 2015-04-03 09:34:26 · 1412 阅读 · 0 评论 -
HIVE 性能调优
限制输出调整 Limit 语句在很多情况下还是会查询所有数据后才返回部分结果的,可以开启Hive的一个配置属性,这样 在使用limit时可以对数据进行抽样。 set hive.limit.optimize.enable=true 这个设置的缺点是,你可能永远也查不到你有用的数据。 还有两个参数可以控制这个操作 hive.limit.row.max.size=1000000; hive.原创 2015-03-12 14:24:10 · 1125 阅读 · 0 评论 -
Hive 表连接查询NullPointerException
2015-04-15 17:48:45,764 ERROR [uber-SubtaskRunner] org.apache.hadoop.hive.ql.exec.MapJoinOperator: Unxpected exception: nulljava.lang.NullPointerException at org.apache.hadoop.hive.ql.exec.MapJoin原创 2015-04-15 18:08:56 · 4531 阅读 · 0 评论 -
Hive HDF 引用资源文件路径问题
1.UDF中没有引用其他资源文件 Hive UDF 函数,写完后打成jar包。放到指定目录下 例如:/home/hadoop/udf/ 并且在该目录下启动hive cli 执行add jar /home/hadoop/udf/timeOffset.jarcreate temporary function timeOffset(time) as 'cn.gitv.analysis.TimeOf原创 2015-04-17 14:52:06 · 7287 阅读 · 0 评论
分享