waterdrop
文章平均质量分 62
颍天
路漫漫其修远兮吾将上下而求索
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Waterdrop FAQ/常见问题
前言 由于github老是打不开,转载部分waterdrop常见问题。 原文地址:https://github.com/InterestingLab/waterdrop/issues/267 waterdrop使用文档地址:https://interestinglab.github.io/waterdrop-docs/#/zh-cn/v1/ 问题及解决办法 以集群模式(cluster)运行waterdrop,提示找不到:plugins.tar.gz 使用cluster模式提交前,需要您先执行如下命令:转载 2021-06-03 18:25:06 · 2658 阅读 · 7 评论 -
waterdrop使用cdh的spark2提交任务
有的公司使用的是cdh集群,用waterdrop同步数据的时候会遇到spark版本太低,需要切换到spark2去。 特此记录一下切换过程以及遇到的问题。 更改waterdrop的bin目录下的start-waterdrop.sh文件,更改spark-submit为spark2-submit 更改waterdrop的config目录下的waterdrop-env.sh文件,更改SPARK_HOME的配置。 如果环境变量中配置了SPARK_HOME,首先检查环境变量中的SPARK_HOME 问题: E原创 2021-06-03 12:23:01 · 599 阅读 · 0 评论 -
spark提交任务报错:java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
官方解释:https://spark.apache.org/docs/latest/hadoop-provided.html 从 Spark 1.4 版本开始,该项目打包了“Hadoop free”版本,让您可以更轻松地将单个 Spark 二进制文件连接到任何 Hadoop 版本。要使用这些构建,您需要修改 SPARK_DIST_CLASSPATH 以包含 Hadoop 的包 jar。最方便的方法是在 conf/spark-env.sh 中添加一个条目。 现在以hadoop这个命令已经在环境变量中存在的情况原创 2021-06-03 11:16:25 · 1626 阅读 · 0 评论 -
写hive到clickhouse的脚本遇到的问题及解决办法
文章目录背景步骤 背景 最近有个需求,就是需要把hive的数据导入到clickhouse,目前的做法是先用waterdrop把hive的数据导入clickhouse的本地表中,然后再清洗写入分布式表中。手动处理已经是完全可以的,但是想做成定时调度,但是我们这边的大数据集群和clickhouse是分开的,所以需要远程调用执行clickhouse的命令,下面就是我在写脚本的时候遇到的问题以及解决办法,特此记录一下。 步骤 waterdrop搭建以及导数据到clickhouse可以参考:https://blog.原创 2021-04-23 10:45:26 · 1417 阅读 · 0 评论 -
waterdrop配置文件动态赋值
文章目录前言解决办法cat EOF 前言 最近在使用waterdrop读取hive的数据,并写入clickhouse。但是hive是按照天来分区的,所以同步数据的时候需要动态的选择分区。但是waterdrop的配置文件是conf文件,没法动态赋值。特此记录一下这个解决办法。 解决办法 我们可以使用cat <<!EOF把变量传进去,并且把脚本生成在文件夹中,然后再使用waterdrop的命令调用即可。demo如下: #!/bin/bash # 日期及参数配置输入,默认当天无参数输入 if [ $原创 2021-04-22 10:26:54 · 997 阅读 · 0 评论
分享