- 博客(6)
- 收藏
- 关注
原创 执行sparksql时报错,显示查询不到表分区下的子分区
报错如图解决办法:添加开启文件递归查询的参数set hive.mapred.supports.subdirectories=true;set mapreduce.input.fileinputformat.input.dir.recursive=true;
2021-08-23 14:36:07
602
原创 sqoop抽取mysql数据到Hive时报错
sqoop抽取mysql数据到Hive时报以下错误ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Generating splits for a textual index column allowed only in case of "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" property passed a.
2021-01-11 19:38:01
346
原创 azkaban运行sparkSQL报错:azkaban.jobExecutor.utils.process.ProcessFailureException
azkaban运行SparkSQL时报如上错误,解决过程:1、首先百度查阅问题,有说是将文件格式设置为unix格式即可,于是检查发现格式并没有错。2、将cluster运行模式修改为了client模式,再次运行,查看到详细报错如下:然后有两种解决方法:1、增加动态分区数量(因为不知道增加多少合适,所以该方法我没有尝试,选用了第二种);2、将SparkSQL里,分区字段由原来的开头挪到最后一个位置,我是以dt为分区字段,具体如下:select column1,column2,co..
2020-11-13 10:13:09
1131
原创 做历史累计表时容易忽略的小坑(会导致数据量膨胀)
分享一个做数仓ETL表时遇到的小坑,哈哈,应该只适合数仓小白白看。。。。 所谓历史累计表,就是要记录下从数据产生到当前这一时段的累计,比如,某一天,日志进来一条数据,是一个用户访问了某个页面,这其中加入有如下信息:用户,访问页面名称,进入页面时间,退出页面时间。此时我们可以计算出该用户在这一天访问该页面的时长。一般情况下每天的日志是以增量形式入库,对于报表或者其他需求而言,...
2019-11-13 16:17:15
471
原创 从hive查询数据追加至文本(在linux操作)
1、在你的linux上建一个test.sh文本vi test.sh2、敲回车3、按i进入编辑模式,然后输入代码(下面只是我的demo)#!/bin/bashhive -e "select a.appcode,b.province,b.city,count(distinct a.open_id ) as memberfrom(select upper(mac) as mac,appco...
2019-10-25 10:11:47
687
2
原创 HAWQ的基本操作
1、进入hawqsource /usr/local/hawq/greenplum_path.shpsql -U gpadmin2、查看所有数据库\l;3、新建数据库create database test;4、切换数据库\c test;5、新建模式create schema rds;6、显示当前库下当前模式select current_schema();7、查...
2019-07-23 11:06:59
881
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人