自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

元元的李树专栏

知之真切笃实处即是行,行之明觉精察处即是知。

  • 博客(77)
  • 收藏
  • 关注

原创 Apache DolphinScheduler 3.0.0 升级到 3.1.8 教程

需要将 使用到的数据库(比如MySQL)的connector (本人亲测 mysql-connector-java-8.0.30.jar 适用,其他connector版本未测试)放到相应的libs库里。为了开发者提供便利查询服务:包括查找Jar,Jar下载,查找class文件,查询Maven仓库及引入代码,查询Gradle引入代码等与Java开发相关的功能服务。Jar查找,Jar下载,class文件,Maven仓库查询,Gradle引入代码 -时代Java。还需要替换相应的zookeeper jar包,

2023-10-17 15:54:01 1027 2

原创 DolphinScheduler 3.0安装及使用

DolphinScheduler 3.0版本的安装教程

2022-08-24 18:20:34 6215

原创 个人在使用python时的报错问题及解决办法汇总

此贴是用来记录本人使用python时遇到的报错问题,记录在案,以待备查。01. python里对字典的key值进行修改的方法python里对字典的key值进行修改的方法https://blog.youkuaiyun.com/qq0719/article/details/79271801?spm=1001.2014.3001.550202. Python调用某个类,传**kwargs参数时,字符串的形式传入方法Python调用某个类,传**kwargs参数时,字符串的形式传入方法https://blog.

2022-04-24 10:50:23 1668

原创 pyspark及Spark报错问题汇总及某些函数用法。

此贴,主要记录本人在工作中遇到的某些报错问题,并提出自己的解决办法。1.spark = SparkSession.builder() TypeError: 'Builder' object is not callable解决办法:.builder() 改为.builderhttps://issues.apache.org/jira/browse/SPARK-1842...

2019-01-07 14:56:27 36611 8

原创 一张图片简单了解Apache Kylin

参考《Apache Kylin权威指南》及官网的说明,梳理成了脑图(完成了部分章节,后续会再补充),现在以图片的形式分享出来。若需要脑图源文件(xmind格式),请在评论区留言,附上邮箱地址。 ...

2018-12-03 15:48:30 178

原创 HDFS Commands Guide 汉化版

参考了hadoop官网的介绍,自己简单的整理了一下,画成了脑图,并保存为图片。官网地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html如果想要脑图(xmind格式),请在评论区留下邮箱地址。...

2018-03-05 18:01:39 249

原创 python里对字典的key值进行修改的方法

参考了如下网站的方法,自己简单改写了对应函数。https://stackoverflow.com/questions/21201661/key-must-not-contain-error-in-pymongo修改字典的key,最好的方式就是新增一个key-value,value为之前的值;之后再把原先的key-value删掉。=========================我以...

2018-02-06 16:59:34 25708 1

原创 HBase 表如何按照某表字段排序后顺序存储的方法?

如果想按照某列字段来排序,则需要再设计该表的rowkey上做文章,既满足字典排序,又能按照想要的字段排序来存储数据。最后的实现效果是,存储在HBase的数据,是按照listdate 降序顺次存储,方便后续开发api接口,返回数据。[HBase] - 理解 HBase Rowkey 字典排序。rowkey 字典序排序可点击下方链接了解。下面给出我的一个设计思路,仅供参考。(1)rowkey排序——升序。(2)Column排序——升序。(3)时间戳排序——降序。

2023-10-11 17:27:27 1476

原创 Hbase drop 表卡住没有响应

在 Master UI 主页的 Procedures & Locks 菜单栏下,在页面标题中列出了所有正在进行的 Procedure 和 Locks,以及当前的 Master Procedure WALs;Procedure 和 Locks 的列表也可以通过 hbase shell 获得: list_procedures。在实际工作中遇到过重新创建一个hbase的hive外部表,在。有关hbck2的编译及使用方法可参考如下两个文章的介绍。点击 下方图片 画圈处的选项,查看表锁的情况。

2023-07-07 09:52:12 1625

原创 46. org.apache.spark.SparkException: Could not find CoarseGrainedScheduler

org.apache.spark.SparkException: Could not find CoarseGrainedScheduler

2022-12-22 15:35:23 1843

原创 45.hive -e 提示 X.sh: line XXX: percent: command not found和not recognize input near ‘percent‘ ‘*‘

解决办法:应在“`”(反引号)前添加转移字符“\”,对于我这个报错场景,`percent`转变为\'percent\`

2022-12-07 13:53:51 362

原创 Pandas to Mysql AttributeError: ‘Timestamp‘ object has no attribute ‘translate‘

此报错,需要将pandas的某个日期或者时间列类型改为str【astype(str)】即可 。参考Python to mysql 'Timestamp' object has no attribute 'translate'https://stackoverflow.com/questions/43108164/python-to-mysql-timestamp-object-has-no-attribute-translatedf['date_'] = df['date_'].astype.

2022-05-31 17:13:19 2493 2

原创 Error occurred during loading data. Trying to use cache server https://fake-useragent.herokuapp.com/

Python 中的第三方模块fake_useragent 报错,参考如下链接,Python3 fake_useragent 模块的使用和报错解决方案_极客点儿-程序员宅基地https://www.cxyzjd.com/article/yilovexing/89044980摘录关键信息更新 fake_useragentpip install --upgrade fake_useragent1. 在实例化的时候指定一些参数禁用服务器缓存ua = UserAgent(use_ca.

2022-04-24 10:45:12 2644

原创 解析搜狗微信文章页面源码的日期publish_time为空的解决办法(只谈思路,不提供代码)

文章的发布时间无法获取,但是检查页面源码的时候明明是有时间的,如图所示:<em id="publish_time" class="rich_media_meta rich_media_meta_text"></em>原来它是网页前端用js生成的时间。如果想要获取该文章的日期,有一个思路是:①搜狗微信搜文章,输入关键字②查看网页源代码,找到<script>document.write(timeConvert③用正则表达式获取posix_

2022-04-19 17:56:54 768

原创 Python调用某个类,传**kwargs参数时,字符串的形式传入方法

在调用python的某些类时,事先并不确定参数的,需要自行拼接字符串。解决办法如下,参考:https://stackoverflow.com/questions/48838289/pass-string-parameter-into-class-function-pythonhttps://stackoverflow.com/questions/48838289/pass-string-parameter-into-class-function-python给出我的代码示例:# 生成kw.

2021-12-30 11:47:17 1194

原创 psycopg2 : cursor already closed

参考如下的技术贴python - psycopg2 : cursor already closed - Stack Overflowhttps://stackoverflow.com/questions/35651586/psycopg2-cursor-already-closed[Solved] Python psycopg2 : cursor already closed - Code RedirectI am using psycopg2 2.6.1. I have a bunch of quer

2021-12-28 10:33:01 2545

原创 44.spark-shell 报错提示  error: not found: value SaveMode

44.spark-shell 报错提示error: not found: value SaveMode情景复现,通过spark-shell控制台,将读取的数据写入hive表,但总提示error: not found: value SaveMode解决办法:在spark-shell 控制台,输入import org.apache.spark.sql._此贴来自汇总贴的子问题,只是为了方便查询。总贴请看置顶帖:pyspark及Spark报错问题汇总及某些函数用法。ht...

2020-09-03 17:00:05 1195

原创 43.org.apache.spark.sql.AnalysisException: Can not create the managed table The associated location

在写入Hive表时,表已经删除,但文件还在,参考https://docs.microsoft.com/zh-cn/azure/databricks/kb/jobs/spark-overwrite-cancel将标志设置spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation为true.set("spark.sql.legacy.allowCreatingManagedTableUsingNonempty...

2020-06-16 16:39:22 4033

原创 42.Spark.read.csv 配置项示例:

42.Spark.read.csv 配置项示例:如下几篇博客,写的很详细,建议大家参考借鉴,我在这里就不班门弄斧了,附上链接,只做一个搬运工。https://docs.databricks.com/data/data-sources/read-csv.htmlhttps://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.htmlhttps://stackoverflow.com/questions/4522

2020-05-19 12:18:16 4506

原创 41.Scals sbt 国内镜像配置:

41.Scals sbt 国内镜像配置:我参考了很多说明,最后看到了如下帖子所说的配置最为完整,(阿里等镜像,不完整)https://bbs.huaweicloud.com/forum/thread-8080-1-1.html感谢华为云提供的镜像。[repositories]localhuaweicloud-maven: https://repo.huaweicloud.com/repository/maven/maven-central: https://repo1.maven.o

2020-05-19 12:14:41 662

原创 40.Hive中的复杂数据类型Array,Map,Structs的一些查询

参考https://blog.youkuaiyun.com/qq_31573519/article/details/86612933https://blog.youkuaiyun.com/Gamer_gyt/article/details/52169441此贴来自汇总贴的子问题,只是为了方便查询。总贴请看置顶帖:pyspark及Spark报错问题汇总及某些函数用法。...

2020-04-26 13:46:22 509

原创 39. hive 在使用 count(distinct ) over 时报错,提示 Expression not in GROUP BY key

hive 在使用 count(distinct ) over 时报错,提示FAILED: SemanticException [Error 10025]: Line 1:123 Expression not in GROUP BY key解决办法参考了很多帖子,都没有说明解决办法。我给出一个折中的参考方案,在聚合前,先将数据去重,再cout() over 即可。下面给出我的参考范...

2020-01-20 15:36:39 1813 1

原创 38. Scala IDE: Scala Library error on a new project

如下帖子讲解的很详细https://www.kevinhooke.com/2014/01/02/scala-ide-scala-library-error-on-a-new-project/此贴来自汇总贴的子问题,只是为了方便查询。总贴请看置顶帖:pyspark及Spark报错问题汇总及某些函数用法。https://blog.youkuaiyun.com/qq0...

2020-01-09 15:02:58 187

原创 37. Spark-shell启动时,报如下错误 java.lang.AssertionError: assertion failed: unsafe symbol SparkSession (ch

此报错,实属罕见。排除了spark配置及集群参数等后,追本溯源,怀疑是服务器上误上传了一个jar包到了spark指定目录,删掉后,问题解决。删掉/usr/hdp/2.6.5.0-292/spark2/jars/ Spark该目录下存在的一个jar包: XXXXX.spark-XXXXX-0.0.1.jar (此jar包,是某项目用到的jar包,是误操作上传到此目录)。即...

2020-01-08 15:09:51 1989

原创 34. play 框架中如何使用start、stop、restart、status脚本化操作?

参考了一个人写的:https://gist.github.com/cnicodeme/6917319#!/bin/bash## --------------------------------------------------------------------# This is a free shell script under GNU GPL version 3.0 or abo...

2019-12-25 17:37:53 1286

原创 36. Spark 读取嵌套Json文件的方法

Spark 读取嵌套Json文件的方法写此问题,我参考了很多现有的帖子说明,综合了各方的方法,我以我的实际操作过程,来说明使用哪种方法最为合适:附参考网页Stack Overflow:How to read the multi nested JSON data in Spark [duplicate]https://stackoverflow.com/questions/48663...

2019-12-25 14:17:07 1809

原创 35. Spark 2.4版本以下没有array_join、array_sort 函数,可变通的办法

首先 ,先要知道 array_join 及 array_sort的函数用法,详情请参考如下网址:https://www.iteblog.com/archives/2459.html下面给出Spark 2.4的 demo代码select row_number() OVER (PARTITION BY 1 ORDER BY 1) id, md5(array_join(...

2019-12-24 10:04:52 1277

原创 eclipse包层级显示和工作空间显示的方法

详情请看原贴。https://blog.youkuaiyun.com/maoyuanming0806/article/details/79509320

2019-11-22 16:25:08 204

原创 33. scala.collection.mutable.WrappedArray$ofRef cannot be cast to scala.collection.immutable.Set

33.scala.collection.mutable.WrappedArray$ofRef cannot be cast to scala.collection.immutable.Set在工作中,需要些UDF函数,对某些字段做替换。对数组类型转换时,遇到如下报错情景复原:原始代码中使用了 Array[] 来定义,根据网络上一些解释,此方法,会引用WrappedArray。 ...

2019-11-11 09:48:47 712

原创 32. 如何在spark Sql里 创建自增id字段,作为主键?

32.如何在spark Sql里 创建自增id字段,作为主键?参考了很多Spark的RDD原生函数,比如zip(),zipWithIndex(),自增id,效率不高。尤其是DataFram转换成RDD,再用zipWithIndex()效率低下。下面我给出一个我认为比较合理的方法,借用row_number函数实现。下面列出我的伪代码:下面给出示例:import org.ap...

2019-11-11 09:47:40 4359 2

原创 31. Spark 读取mongo 使用withPipeline的用法:

31.Spark 读取mongo 使用withPipeline的用法:在工作中遇到过需要从一个公司列表中找出mongo中存在的公司信息。参考Mongo语法 $in可支持这个用法https://docs.mongodb.com/manual/reference/operator/query/in/需要配合spark的.withPipeline来使用。https://docs.mo...

2019-11-11 09:46:54 1309

原创 30. Spark SQL case when用法:

30.Spark SQL case when用法:https://sparkbyexamples.com/spark-case-when-otherwise-example/https://stackoverflow.com/questions/37064315/how-to-write-case-with-when-condition-in-spark-sql-using-scala...

2019-11-11 09:45:58 10656

原创 29. spark 累加历史 + 统计全部 + 行转列

29.spark 累加历史 + 统计全部 + 行转列此作者写的很好,附送原链接地址,在这里不做过多赘述,只说明一些关键用法https://www.cnblogs.com/piaolingzxh/p/5538783.htmlpreceding:用于累加前N行(分区之内)。若是从分区第一行头开始,则为 unbounded。 N为:相对当前行向前的偏移量following :与pre...

2019-11-11 09:45:16 177

原创 28. Spark 的Scala项目中,读取mysql数据

28.Spark 的Scala项目中,读取mysql数据https://www.cnblogs.com/wwxbi/p/6978774.html①在sbt配置文件中,添加mysql依赖。版本很多,选用哪一个版本均可以的,以下是示例:libraryDependencies XXX添加"mysql" % "mysql-connector-java" % "5.1.28"...

2019-11-11 09:43:06 843 1

原创 27. Spark : org.apache.spark.sql.AnalysisException: Reference 'XXXX' is ambiguous

27.Spark :org.apache.spark.sql.AnalysisException: Reference 'XXXX' is ambiguous这个问题是大多是因为,多个表join后,存在同名的列,在select时,取同名id,无法区分所致。解决办法:①对于列名相同的列,在DataFrame中更名。alias或withColumnRenamed可以实现,demo代码...

2019-11-11 09:41:51 2670

原创 26. Spark DataFrame写入Hive Orc 分区表

26.Spark DataFrame写入Hive Orc 分区表分区表建立过程不过多演示,只给出写入hive表的过程。//方法一:addStgCompanyDF.write.partitionBy("dt").mode(SaveMode.Overwrite).orc("hdfs://XXXX/apps/hive/warehouse/XXXX.db/XXXXX/")//方法二:...

2019-11-11 09:40:32 2840

原创 25. Spark Sql求出每一周的周一和周日

25.Spark Sql求出每一周的周一和周日当看到这个需求时,很自然的想到用 date_sub或date_add函数,但参考官方文档的函数说明,发现其用法跟关心型数据库sql语法不太一致,需要做一些转换才可以达到想要的效果。https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/functions.html#...

2019-11-11 09:32:10 3316

原创 24. Spark SQL 的日期函数 dayofweek ,返回的天数,不是国人习惯的日期,改写方法。

24.Spark SQL 的日期函数 dayofweek ,返回的天数,不是国人习惯的日期,改写方法。参考官方文档解释:https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/sql/#dayofweekhttps://www.cnblogs.com/chenzechao/p/93...

2019-11-11 09:30:42 3770 1

原创 23. SparkSQL - The correlated scalar subquery can only contain equality predicates

23.SparkSQL - The correlated scalar subquery can only contain equality predicateshttps://stackoverflow.com/questions/41631199/sparksql-the-correlated-scalar-subquery-can-only-contain-equality-pred...

2019-11-08 15:20:52 631

原创 22. org.apache.spark.sql.AnalysisException: Reference 'XXXXX' is ambiguous

22.org.apache.spark.sql.AnalysisException: Reference 'XXXXX' is ambiguous原因是:多表join后,存在重复列的问题。①解决办法,选择重复列时,指明该列来自之前join的DataFrame即可。②join时,把重复列取别名。下面对方法①做一个demo演示。val joined = df.join(df2...

2019-11-08 15:19:22 3467

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除