
hive
文章平均质量分 78
小小聪
这个作者很懒,什么都没留下…
展开
-
spark ,hive collect_list全局保持顺序
https://www.cnblogs.com/zhnagqi-dream/p/11912317.html原创 2020-07-06 13:34:31 · 2622 阅读 · 0 评论 -
hive map reduce 参数设置
现象:1.目前每日load出来的问题sql,最终的结果文件里面很多都只有一条数据。2.资源影响巨大,对照脚本统计出来的sql运行时间,手动执行sql的时间是其十分之一到三分之一。3.不少sql执行时的map数量能达到1000-3000,但是reduce数量在1左右。由于每天load出的excle文档,sjzx租户的sql过长,手动无法执行,其它租户的sql抽取时又存在乱码问题,仅针对了sjzx_b...原创 2018-03-12 16:51:06 · 3175 阅读 · 0 评论 -
impala配合hive使用
1. 使用1.2. 进程启停1.2.1. 启动启动顺序:statestore->catalog->impaladroot用户:在statestore节点service impala-state-store start在catalog节点service impala-catalog start在impalad节点:service impala-server start1.2.2. 停止停...翻译 2018-03-29 17:25:12 · 3145 阅读 · 0 评论 -
hive 优化
一 .Sql 优化:1. 根据不同的业务场景进行sql优化2. 去除查询过程中不需要的 column3. Where 条件判断再 tablescan 阶段就进行过滤4. 利用partition信息 获取有效的数据信息5. Map端的jion 以大表做驱动 小表加入内存当中6. 调整jion的顺序 进来使 大表作为驱动表。7. 对数据分布不均匀的表进行group by 时, 为了避免 数据集中到 r...原创 2018-04-20 10:46:00 · 389 阅读 · 0 评论 -
hive基本用法
hive 删除分区alter table pdm.mkt_asset_star_71 drop partition (end_dt='3000-12-31');alter table pdm.mkt_asset_star_71 drop partition (end_dt='2017-02-26');三分之一时间处理 from_unixtime(unix_timestamp...原创 2018-05-08 16:09:00 · 534 阅读 · 0 评论