
hive
bigdata_ruiye
专注大数据领域,数据赋能
展开
-
hive脚本开发
#!/bin/bashsourceName=$1writeName=$2dt=$3dtValue=$4hive -e "set spark.app.name=clean_distinct_transfer_dept;set spark.executor.instances=5;set spark.executor.memory=10g;set spark.executor.cores=2;set spark.driver.memory=8g;insert overwrite table.原创 2021-12-07 14:27:13 · 553 阅读 · 0 评论 -
hdfs 跨集群数据迁移
distcp#!/bin/bashDB=$1#获取hive表定义ret=$(hive -e "use ${DB};show tables;"|grep -v _es|grep -v _hb|grep -v importinfo)for tem in $ret;do echo $tem if [ "$tem" != "tab_name" ];then hive -e "use ${DB};show create table $原创 2021-11-29 14:58:32 · 863 阅读 · 0 评论 -
增量合并全量
insert overwrite table nfyy_tn_20210228_1_union.mr_observations PARTITION(dt='2021-03-01')(select obs_updatehospital_dr,obs_consult_dr,obs_ispartogram from nfyy_dhcapp_20210228_1_full.mr_observations awhere 0=(select count(1) from nfyy_dhcapp_20210301_.原创 2021-11-18 17:43:50 · 388 阅读 · 0 评论 -
hive 工作总结2
1 hive 的文件存储格式TEXTFILE SEQUENCEFILE AVRO RCFILE ORC PARQUET 1 分类 面向行的: TEXTFILE、SEQUENCEFLIE、AVRO 面向列的 RCFILE、ORC、PARQUET 2 两种分类的区别 ...原创 2021-11-18 11:18:55 · 715 阅读 · 0 评论 -
hive 工作总结1
hive 优化数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行1 hive本身参数的配置优化: 1 针对小文件过多的配置: 输入、输出端合并 输入:更改hive的输入文件格式,参数名称是 hive.input.format 默认值是org.apache.hadoop.hive.ql.io.HiveInputF...原创 2021-11-17 17:21:12 · 227 阅读 · 0 评论 -
hive架构及工作原理
1 hive架构1.1 组成及作用用户接口: clientcli(hive shell)、jdbc/ODBC(java访问hive)、webUI(浏览器访问hive) 元数据meta store 表所属的数据库 表名 列、分区字段 表的类型 表所在的数据目录 注:默认存储在自带的Derby数据库中,一般使用mysql出处Metastore 底层存储: HDFS 计算:MapReduce 驱动器Driver:接收/响应客户端请求 解..原创 2021-11-17 15:11:24 · 257 阅读 · 0 评论 -
hive 字段构造map结构
01 构建字符串 k:v 结构 字段处理:concat_ws(',',collect_list(concat_ws(':',ht.data_column,ht.data_value)))) 效果:"key1:100,key2:200,key3:300,..."02 字符串 k:v结构转为map结构字段处理:str_to_map(concat_ws(',',collect_list(concat_ws(':',ht.data_column,...原创 2021-11-05 18:41:33 · 2450 阅读 · 0 评论