
Hive
大广-全栈开发
已有专业技术人员证书:
软考中级-数据库系统工程师
通信中级-互联网技术方向工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive sql趣味题-求两两的共同好友
sql 求共同好友原创 2022-06-24 11:47:15 · 976 阅读 · 0 评论 -
hive sql 处理json数组拆分成多行
select *,explode(split(regexp_replace(regexp_extract(statement_inputs,'^\\[(.+)\\]$',1),'\\}\\,\\{', '\\}\\|\\|\\{'),'\\|\\|')) as statement_inputs_new原创 2022-04-26 16:46:05 · 3051 阅读 · 0 评论 -
sparksql 获取json数组第一个里面的某个值
[{"name":"db.tb_name","columns":[],"isTemp":false}]想获取 db.tb_name可以用下面的语句select get_json_object(get_json_object('[{"name":"db.tb_name","columns":[],"isTemp":false}]','$[0]'),'$.name')原创 2022-03-18 16:38:56 · 2216 阅读 · 1 评论 -
Spark ERROR netty.Inbox: Ignoring error org.apache.spark.SparkException: Couldnot find CoarseGrained
问题ERROR org.apache.spark.rpc.netty.Inbox: Ignoring errororg.apache.spark.SparkException: Could not find CoarseGrainedScheduler提到如下解决思路:我没设置 上面的参数默认已经为false了还有方案说 增加num-executors ,已经设置成了100,感觉是设置太多了解决经过一般调试,发现原来是因为spark任务生成task任务过少,而任...原创 2021-08-06 16:44:22 · 1816 阅读 · 0 评论 -
hive 按行打印出截止日期和开始日期之间的日期
sql如下,转换成 yyyymmdd 格式select regexp_replace(mid_date,'-','') as mid_date from (select date_add(start_date, pos) as mid_datefrom( select '1' as uid, '2020-08-11' as start_date, '2021-07-12' as end_date ) tmp lateral view posexplode( split(spac.原创 2021-07-13 19:19:57 · 521 阅读 · 5 评论 -
Hive 常用语句
1、创建外部表(最后一行指定位置)create external table if not exists `db.tb01`(`ds` string comment '购买日期',`appid` string comment '产品标识',`uid` string comment '用户uid')PARTITIONED BY ( `ms` string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'LOCATION '/tj/hiv...原创 2020-07-17 11:28:13 · 744 阅读 · 0 评论 -
hive 动态分区语句
SET hive.exec.dynamic.partition=true; SET hive.exec.max.created.files=300000;SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.exec.max.dynamic.partitions.pernode=5000; SET hive.exec.max.dynamic.partitions=5000;set mapred.job.priority=VERY_...原创 2020-07-17 11:01:30 · 985 阅读 · 0 评论 -
MR 程序报超时的临时解决方法
有同事写的 mr 程序突然有一天运行不出来了,一直报超时,也没有其他的错误。1、首先想到的是不是reducers太少,加大(开始是3,加到10,加到30 都试过,不成功) job.setNumReduceTasks(10);2、再次想加下 reduce 的内存。 conf.set("mapreduce.reduce.java.opts", "-Xmx8192m"); ...原创 2020-04-23 14:28:59 · 942 阅读 · 0 评论 -
hive 查看库的注释及中文乱码及创建带注释的表
把最近常用到的一些语句做些总结:包括查看库注释,注释中文乱码的解决,创建带注释的表等。查看库的注释describe database databasename;hive的注释(comment)中文乱码的解决方法创建表的时候,comment说明字段包含中文,表成功创建成功之后,desc的时候中文说明显示乱码.如下图所示:我们知道hive的元数据是有mysql管理的,所...转载 2020-04-17 11:36:45 · 3229 阅读 · 0 评论 -
给hive增加一列
alter table tablename add columns(columnnamestring) ;之前的数据没这一列的会变成NULL以后的数据加这列后会按照指定的分隔符显示再新增加这一列原创 2020-04-07 16:31:34 · 16877 阅读 · 0 评论 -
Hive 优化
1、尽量不用 select *2、输入文件不要是大量的小文件,hive默认的分片是128M小文件可以先合并成大文件对于 group by 引起的倾斜,优化措施set hive.map.aggr=true;set hive.groupby.skewindata=truecount distinct 优化 可以通过先 group by 再count的方式来优化selec...原创 2019-04-11 10:33:33 · 171 阅读 · 0 评论 -
hive -e 包含 warn 日志
有时候执行会包含 WARN 开头的日志WARN:Themethodclassorg.apache.commons.logging.impl.SLF4JLogFactory#release()wasinvoked.WARN:Pleaseseehttp://www.slf4j.org/codes.html#releaseforanexplanation.解决方案:...原创 2019-03-26 11:22:18 · 3178 阅读 · 0 评论 -
hive 创建库和加载分区数据
创建库use temp;CREATE EXTERNAL TABLE `table1`( `column1` string, `column2` string,PARTITIONED BY ( `date` string, `type` string);加载分区数据hive -e"alter table temp.table1add partitio...原创 2019-01-19 18:58:30 · 635 阅读 · 0 评论 -
SecureCRT连接的centos 系统中 hive 退格键不能用
在选项 -> 会话选项 的 终端 -> 仿真 选项卡中 选择终端为 linux 立即就可以用了,如图:原创 2018-11-04 20:34:39 · 752 阅读 · 0 评论 -
Hive 复杂点的 LEFT JOIN 操作语句
项目背景模拟: 查询30天内注册的未产生浏览行为的用户,然后通过关联另一张对应表,取得相应的字段信息。 查询在 leftTable 里面 而不在 otherTable里面的数据,并和 rightTable 做左连接,得到两表可以匹配上的数据,空值过滤掉。SELECT a.fieldA, rightTable.fieldB, rightTabl...原创 2018-11-01 17:36:14 · 7287 阅读 · 0 评论 -
Hive 常用 SQL的简单实用语句
创建表 CREATE TABLE temp.mytablename(idstring,name string) row format delimited fields terminated by ',' lines terminated by '\n';第...原创 2018-09-05 18:10:03 · 2296 阅读 · 0 评论 -
Hive 常用函数
1.字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from lxw_dual;7 2. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hi...原创 2018-09-11 15:28:38 · 1993 阅读 · 0 评论