- 博客(20)
- 收藏
- 关注
原创 Hive SQL Windowing and Analytics Functions 窗口和分析函数
Hive SQL Windowing and Analytics Functions 窗口和分析函数
2022-08-11 13:12:43
423
原创 Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka 集成
Hudi 0.11.0 + Flink1.14.4 + Hive + Flink CDC + Kafka
2022-08-09 17:48:05
3327
1
原创 一次Hudi Jar包中的HBase冲突导致的Spark任务失败
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. hbase-default.xml file seems to be for an older version of HBase (2.4.9), this version is 2.1.0-cdh6.3.1
2022-08-08 11:47:16
792
1
原创 一个flink+kafka+hive示例
版本:Flink 1.13.1 ,Hive 2.1.1进入flink解压目录bin/yarn-session.sh -nm testFlink2Hive -d -qu root.test -jm 1024 -tm 1024bin/sql-client.sh embedded SET execution.checkpointing.interval = 12h;CREATE CATALOG myhive WITH ( 'type' = 'hive', 'default-datab
2022-04-14 20:42:31
2040
原创 一个Mysql 问题The server quit without updating PID file
服务器系统盘空间表交小,只有30g,由于安装mysql时没有修改mysql数据的存储目录,因此决定修改my.cnf中的arch,data,tmp文件目录原来的目录/usr/local/mysql修改后的目录/opt/mysql1.创建目录mkdir -p /opt/mysql/arch /opt/mysql/data /opt/mysql/tmp2.修改目录所属用户chown -R mysqladmin:dba /opt/mysqlchmod -R 755 /opt/mysql3.停止mys
2022-04-14 20:22:48
589
原创 ORC和Parquet的一些简单对比
目录一、简介1.1 ORC二、测试环境说明2.1.集群环境2.2 测试数据2.2.1 TPC-H使用1)tpch下载2)解压3)配置4)生成执行命令,生成dbgen2.2.2 建表、sql和数据准备1)建表语句见附件,分别建Textfile、ORC、Parquet表2)导入数据3)查询语句见附件三、Impala查询ORC和Parquet对比四、ORC和Parquet的压缩效率对比五、ORC和Parquet的简单查询效率对比六、总结一、简介目前我们Hive数仓建表存储格式主要是Parquet+默认压缩,因
2022-04-02 21:02:22
4138
原创 Hive on Spark 报错Timed out waiting for Remote Spark Driver to connect to HiveServer2
目录问题解决方法问题报错日志22/03/01 14:47:06 ERROR client.SparkClientImpl: Timed out waiting for Remote Spark Driver to connect to HiveServer2.Possible reasons include network issues, errors in remote driver, cluster has no available resources, etc.Please check YA
2022-04-01 21:37:25
1755
原创 CDH集成了Kerberos后写入数据到HBase遇到的几个问题
目录环境和场景问题一:Zookeeper认证错误解决方法问题二:HBase权限错误解决方法环境和场景环境:CDH6.3.1+Kerberos场景:数据经Flink处理后写入到Hbase问题一:Zookeeper认证错误报错内容:Flink Task Managers日志2022-03-14 15:02:25,599 INFO org.apache.zookeeper.ClientCnxn [] - Session establishme
2022-04-01 21:21:19
3659
原创 Airflow2.1.3遇到的2个问题及解决方法
问题一与scheduler在同一机器上的worker可以运行,其他worker不能调度直接报错[2022-01-20 18:09:48,333: ERROR/ForkPoolWorker-6] Failed to execute task No row was found for one().Traceback (most recent call last): File "/home/airflow/anaconda3/lib/python3.8/site-packages/airflow/exe
2022-04-01 20:50:23
1331
原创 一个Airflow2.1.3 experimental api 请求异常问题
一个Airflow2.1.3 experimental api 请求异常问题
2022-04-01 20:33:20
472
原创 配置Impala自动同步Hive元数据
直接参考官方文档:https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/impala_metadata.html#auto_poll_hms_notificationThe End
2022-03-31 20:56:01
1103
原创 使用Hive udf报错
问题:使用Hive udf报错,udf在hue上可以正常使用,用airflow调度就报错了,日志如下。看日志,找不到类,应该是缺少包。解决方法:将c++开发的加密算法编译的动态链接库so文件拷贝到/usr/lib64下,每个节点都需要。 ERROR ql.Driver: FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed d.
2022-03-30 21:12:56
2385
原创 Hive删库
drop database tpch_textfile;报错如下: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database tpch_textfile is not empty. One or more tables exist.)
2022-03-29 21:19:54
3640
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人