元元的李树-优快云博客

原创 Apache DolphinScheduler 3.0.0 升级到 3.1.8 教程

需要将使用到的数据库（比如MySQL）的connector (本人亲测 mysql-connector-java-8.0.30.jar 适用，其他connector版本未测试)放到相应的libs库里。为了开发者提供便利查询服务：包括查找Jar，Jar下载，查找class文件，查询Maven仓库及引入代码，查询Gradle引入代码等与Java开发相关的功能服务。Jar查找，Jar下载，class文件，Maven仓库查询，Gradle引入代码 -时代Java。还需要替换相应的zookeeper jar包，

2023-10-17 15:54:01 1027 2

原创 DolphinScheduler 3.0安装及使用

DolphinScheduler 3.0版本的安装教程

2022-08-24 18:20:34 6215

原创个人在使用python时的报错问题及解决办法汇总

此贴是用来记录本人使用python时遇到的报错问题，记录在案，以待备查。01. python里对字典的key值进行修改的方法python里对字典的key值进行修改的方法https://blog.youkuaiyun.com/qq0719/article/details/79271801?spm=1001.2014.3001.550202. Python调用某个类，传**kwargs参数时，字符串的形式传入方法Python调用某个类，传**kwargs参数时，字符串的形式传入方法https://blog.

2022-04-24 10:50:23 1668

原创 pyspark及Spark报错问题汇总及某些函数用法。

此贴，主要记录本人在工作中遇到的某些报错问题，并提出自己的解决办法。1.spark = SparkSession.builder() TypeError: 'Builder' object is not callable解决办法：.builder() 改为.builderhttps://issues.apache.org/jira/browse/SPARK-1842...

2019-01-07 14:56:27 36611 8

原创一张图片简单了解Apache Kylin

参考《Apache Kylin权威指南》及官网的说明，梳理成了脑图(完成了部分章节，后续会再补充)，现在以图片的形式分享出来。若需要脑图源文件(xmind格式)，请在评论区留言，附上邮箱地址。 ...

2018-12-03 15:48:30 178

原创 HDFS Commands Guide 汉化版

参考了hadoop官网的介绍，自己简单的整理了一下，画成了脑图，并保存为图片。官网地址：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html如果想要脑图(xmind格式)，请在评论区留下邮箱地址。...

2018-03-05 18:01:39 249

原创 python里对字典的key值进行修改的方法

参考了如下网站的方法，自己简单改写了对应函数。https://stackoverflow.com/questions/21201661/key-must-not-contain-error-in-pymongo修改字典的key，最好的方式就是新增一个key-value，value为之前的值；之后再把原先的key-value删掉。=========================我以...

2018-02-06 16:59:34 25708 1

原创 HBase 表如何按照某表字段排序后顺序存储的方法？

如果想按照某列字段来排序，则需要再设计该表的rowkey上做文章，既满足字典排序，又能按照想要的字段排序来存储数据。最后的实现效果是，存储在HBase的数据，是按照listdate 降序顺次存储，方便后续开发api接口，返回数据。[HBase] - 理解 HBase Rowkey 字典排序。rowkey 字典序排序可点击下方链接了解。下面给出我的一个设计思路，仅供参考。（1）rowkey排序——升序。（2）Column排序——升序。（3）时间戳排序——降序。

2023-10-11 17:27:27 1476

原创 Hbase drop 表卡住没有响应

在 Master UI 主页的 Procedures & Locks 菜单栏下，在页面标题中列出了所有正在进行的 Procedure 和 Locks，以及当前的 Master Procedure WALs；Procedure 和 Locks 的列表也可以通过 hbase shell 获得: list_procedures。在实际工作中遇到过重新创建一个hbase的hive外部表，在。有关hbck2的编译及使用方法可参考如下两个文章的介绍。点击下方图片画圈处的选项，查看表锁的情况。

2023-07-07 09:52:12 1625

原创 46. org.apache.spark.SparkException: Could not find CoarseGrainedScheduler

org.apache.spark.SparkException: Could not find CoarseGrainedScheduler

2022-12-22 15:35:23 1843

原创 45.hive -e 提示 X.sh: line XXX: percent: command not found和not recognize input near ‘percent‘ ‘*‘

解决办法：应在“`”(反引号)前添加转移字符“\”,对于我这个报错场景,`percent`转变为\'percent\`

2022-12-07 13:53:51 362

原创 Pandas to Mysql AttributeError: ‘Timestamp‘ object has no attribute ‘translate‘

此报错，需要将pandas的某个日期或者时间列类型改为str【astype(str)】即可。参考Python to mysql 'Timestamp' object has no attribute 'translate'https://stackoverflow.com/questions/43108164/python-to-mysql-timestamp-object-has-no-attribute-translatedf['date_'] = df['date_'].astype.

2022-05-31 17:13:19 2493 2

原创 Error occurred during loading data. Trying to use cache server https://fake-useragent.herokuapp.com/

Python 中的第三方模块fake_useragent 报错，参考如下链接，Python3 fake_useragent 模块的使用和报错解决方案_极客点儿-程序员宅基地https://www.cxyzjd.com/article/yilovexing/89044980摘录关键信息更新 fake_useragentpip install --upgrade fake_useragent1. 在实例化的时候指定一些参数禁用服务器缓存ua = UserAgent(use_ca.

2022-04-24 10:45:12 2644

原创解析搜狗微信文章页面源码的日期publish_time为空的解决办法（只谈思路，不提供代码）

文章的发布时间无法获取,但是检查页面源码的时候明明是有时间的,如图所示:<em id="publish_time" class="rich_media_meta rich_media_meta_text"></em>原来它是网页前端用js生成的时间。如果想要获取该文章的日期，有一个思路是：①搜狗微信搜文章，输入关键字②查看网页源代码，找到<script>document.write(timeConvert③用正则表达式获取posix_

2022-04-19 17:56:54 768

原创 Python调用某个类，传**kwargs参数时，字符串的形式传入方法

在调用python的某些类时，事先并不确定参数的，需要自行拼接字符串。解决办法如下，参考：https://stackoverflow.com/questions/48838289/pass-string-parameter-into-class-function-pythonhttps://stackoverflow.com/questions/48838289/pass-string-parameter-into-class-function-python给出我的代码示例：# 生成kw.

2021-12-30 11:47:17 1194

原创 psycopg2 : cursor already closed

参考如下的技术贴python - psycopg2 : cursor already closed - Stack Overflowhttps://stackoverflow.com/questions/35651586/psycopg2-cursor-already-closed[Solved] Python psycopg2 : cursor already closed - Code RedirectI am using psycopg2 2.6.1. I have a bunch of quer

2021-12-28 10:33:01 2545

原创 44.spark-shell 报错提示 error: not found: value SaveMode

44.spark-shell 报错提示error: not found: value SaveMode情景复现，通过spark-shell控制台，将读取的数据写入hive表，但总提示error: not found: value SaveMode解决办法：在spark-shell 控制台，输入import org.apache.spark.sql._此贴来自汇总贴的子问题，只是为了方便查询。总贴请看置顶帖：pyspark及Spark报错问题汇总及某些函数用法。ht...

2020-09-03 17:00:05 1195

原创 43.org.apache.spark.sql.AnalysisException: Can not create the managed table The associated location

在写入Hive表时，表已经删除，但文件还在，参考https://docs.microsoft.com/zh-cn/azure/databricks/kb/jobs/spark-overwrite-cancel将标志设置spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation为true.set("spark.sql.legacy.allowCreatingManagedTableUsingNonempty...

2020-06-16 16:39:22 4033

原创 42.Spark.read.csv 配置项示例：

42.Spark.read.csv 配置项示例：如下几篇博客，写的很详细，建议大家参考借鉴，我在这里就不班门弄斧了，附上链接，只做一个搬运工。https://docs.databricks.com/data/data-sources/read-csv.htmlhttps://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.htmlhttps://stackoverflow.com/questions/4522

2020-05-19 12:18:16 4506

原创 41.Scals sbt 国内镜像配置：

41.Scals sbt 国内镜像配置：我参考了很多说明，最后看到了如下帖子所说的配置最为完整，(阿里等镜像，不完整)https://bbs.huaweicloud.com/forum/thread-8080-1-1.html感谢华为云提供的镜像。[repositories]localhuaweicloud-maven: https://repo.huaweicloud.com/repository/maven/maven-central: https://repo1.maven.o

2020-05-19 12:14:41 662

原创 40.Hive中的复杂数据类型Array,Map,Structs的一些查询

参考https://blog.youkuaiyun.com/qq_31573519/article/details/86612933https://blog.youkuaiyun.com/Gamer_gyt/article/details/52169441此贴来自汇总贴的子问题，只是为了方便查询。总贴请看置顶帖：pyspark及Spark报错问题汇总及某些函数用法。...

2020-04-26 13:46:22 509

原创 39. hive 在使用 count(distinct ) over 时报错，提示 Expression not in GROUP BY key

hive 在使用 count(distinct ) over 时报错，提示FAILED: SemanticException [Error 10025]: Line 1:123 Expression not in GROUP BY key解决办法参考了很多帖子，都没有说明解决办法。我给出一个折中的参考方案，在聚合前，先将数据去重，再cout() over 即可。下面给出我的参考范...

2020-01-20 15:36:39 1813 1

原创 38. Scala IDE: Scala Library error on a new project

如下帖子讲解的很详细https://www.kevinhooke.com/2014/01/02/scala-ide-scala-library-error-on-a-new-project/此贴来自汇总贴的子问题，只是为了方便查询。总贴请看置顶帖：pyspark及Spark报错问题汇总及某些函数用法。https://blog.youkuaiyun.com/qq0...

2020-01-09 15:02:58 187

原创 37. Spark-shell启动时，报如下错误 java.lang.AssertionError: assertion failed: unsafe symbol SparkSession (ch

此报错，实属罕见。排除了spark配置及集群参数等后，追本溯源，怀疑是服务器上误上传了一个jar包到了spark指定目录，删掉后，问题解决。删掉/usr/hdp/2.6.5.0-292/spark2/jars/ Spark该目录下存在的一个jar包： XXXXX.spark-XXXXX-0.0.1.jar (此jar包，是某项目用到的jar包，是误操作上传到此目录)。即...

2020-01-08 15:09:51 1989

原创 34. play 框架中如何使用start、stop、restart、status脚本化操作？

参考了一个人写的：https://gist.github.com/cnicodeme/6917319#!/bin/bash## --------------------------------------------------------------------# This is a free shell script under GNU GPL version 3.0 or abo...

2019-12-25 17:37:53 1286

原创 36. Spark 读取嵌套Json文件的方法

Spark 读取嵌套Json文件的方法写此问题，我参考了很多现有的帖子说明，综合了各方的方法，我以我的实际操作过程，来说明使用哪种方法最为合适：附参考网页Stack Overflow：How to read the multi nested JSON data in Spark [duplicate]https://stackoverflow.com/questions/48663...

2019-12-25 14:17:07 1809

原创 35. Spark 2.4版本以下没有array_join、array_sort 函数，可变通的办法

首先，先要知道 array_join 及 array_sort的函数用法，详情请参考如下网址：https://www.iteblog.com/archives/2459.html下面给出Spark 2.4的 demo代码select row_number() OVER (PARTITION BY 1 ORDER BY 1) id, md5(array_join(...

2019-12-24 10:04:52 1277

原创 eclipse包层级显示和工作空间显示的方法

详情请看原贴。https://blog.youkuaiyun.com/maoyuanming0806/article/details/79509320

2019-11-22 16:25:08 204

原创 33. scala.collection.mutable.WrappedArray$ofRef cannot be cast to scala.collection.immutable.Set

33.scala.collection.mutable.WrappedArray$ofRef cannot be cast to scala.collection.immutable.Set在工作中，需要些UDF函数，对某些字段做替换。对数组类型转换时，遇到如下报错情景复原：原始代码中使用了 Array[] 来定义，根据网络上一些解释，此方法，会引用WrappedArray。 ...

2019-11-11 09:48:47 712

原创 32. 如何在spark Sql里创建自增id字段，作为主键？

32.如何在spark Sql里创建自增id字段，作为主键？参考了很多Spark的RDD原生函数，比如zip(),zipWithIndex()，自增id，效率不高。尤其是DataFram转换成RDD，再用zipWithIndex()效率低下。下面我给出一个我认为比较合理的方法，借用row_number函数实现。下面列出我的伪代码：下面给出示例：import org.ap...

2019-11-11 09:47:40 4359 2

原创 31. Spark 读取mongo 使用withPipeline的用法：

31.Spark 读取mongo 使用withPipeline的用法：在工作中遇到过需要从一个公司列表中找出mongo中存在的公司信息。参考Mongo语法 $in可支持这个用法https://docs.mongodb.com/manual/reference/operator/query/in/需要配合spark的.withPipeline来使用。https://docs.mo...

2019-11-11 09:46:54 1309

原创 30. Spark SQL case when用法：

30.Spark SQL case when用法：https://sparkbyexamples.com/spark-case-when-otherwise-example/https://stackoverflow.com/questions/37064315/how-to-write-case-with-when-condition-in-spark-sql-using-scala...

2019-11-11 09:45:58 10656

原创 29. spark 累加历史 + 统计全部 + 行转列

29.spark 累加历史 + 统计全部 + 行转列此作者写的很好，附送原链接地址，在这里不做过多赘述，只说明一些关键用法https://www.cnblogs.com/piaolingzxh/p/5538783.htmlpreceding：用于累加前N行（分区之内）。若是从分区第一行头开始，则为 unbounded。 N为：相对当前行向前的偏移量following ：与pre...

2019-11-11 09:45:16 177

原创 28. Spark 的Scala项目中，读取mysql数据

28.Spark 的Scala项目中，读取mysql数据https://www.cnblogs.com/wwxbi/p/6978774.html①在sbt配置文件中，添加mysql依赖。版本很多，选用哪一个版本均可以的，以下是示例：libraryDependencies XXX添加"mysql" % "mysql-connector-java" % "5.1.28"...

2019-11-11 09:43:06 843 1

原创 27. Spark : org.apache.spark.sql.AnalysisException: Reference 'XXXX' is ambiguous

27.Spark :org.apache.spark.sql.AnalysisException: Reference 'XXXX' is ambiguous这个问题是大多是因为，多个表join后，存在同名的列，在select时，取同名id，无法区分所致。解决办法：①对于列名相同的列，在DataFrame中更名。alias或withColumnRenamed可以实现,demo代码...

2019-11-11 09:41:51 2670

原创 26. Spark DataFrame写入Hive Orc 分区表

26.Spark DataFrame写入Hive Orc 分区表分区表建立过程不过多演示，只给出写入hive表的过程。//方法一：addStgCompanyDF.write.partitionBy("dt").mode(SaveMode.Overwrite).orc("hdfs://XXXX/apps/hive/warehouse/XXXX.db/XXXXX/")//方法二：...

2019-11-11 09:40:32 2840

原创 25. Spark Sql求出每一周的周一和周日

25.Spark Sql求出每一周的周一和周日当看到这个需求时，很自然的想到用 date_sub或date_add函数，但参考官方文档的函数说明，发现其用法跟关心型数据库sql语法不太一致，需要做一些转换才可以达到想要的效果。https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/functions.html#...

2019-11-11 09:32:10 3316

原创 24. Spark SQL 的日期函数 dayofweek ，返回的天数，不是国人习惯的日期，改写方法。

24.Spark SQL 的日期函数 dayofweek ，返回的天数，不是国人习惯的日期，改写方法。参考官方文档解释：https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/sql/#dayofweekhttps://www.cnblogs.com/chenzechao/p/93...

2019-11-11 09:30:42 3770 1

原创 23. SparkSQL - The correlated scalar subquery can only contain equality predicates

23.SparkSQL - The correlated scalar subquery can only contain equality predicateshttps://stackoverflow.com/questions/41631199/sparksql-the-correlated-scalar-subquery-can-only-contain-equality-pred...

2019-11-08 15:20:52 631

原创 22. org.apache.spark.sql.AnalysisException: Reference 'XXXXX' is ambiguous

22.org.apache.spark.sql.AnalysisException: Reference 'XXXXX' is ambiguous原因是：多表join后，存在重复列的问题。①解决办法，选择重复列时，指明该列来自之前join的DataFrame即可。②join时，把重复列取别名。下面对方法①做一个demo演示。val joined = df.join(df2...

2019-11-08 15:19:22 3467

空空如也

空空如也