自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

黑眼圈@~@从不出水文

坚持原创、优质、实用性强、具有互联网精神的博客,认准黑眼圈@~@

  • 博客(25)
  • 资源 (2)
  • 收藏
  • 关注

原创 海豚1.3单节点,多集群设置

单节点海豚多集群环境

2023-05-06 11:30:13 1066

原创 更改/备份Hive元数据发生的生产事故

hive备份和更改元数据引发的问题。

2023-03-13 14:55:38 1230 4

原创 Spark3每个job之间任务间隔过长

Spark每个job之间任务间隔过长优化经历

2023-02-20 11:04:56 1038 1

原创 CDH6.3.2防止被攻击,打补丁(未授权漏洞)

对CDH集群的HDFS增加身份验证

2022-12-13 22:45:11 1236 3

原创 impala使用md5(3步3条命令搞定)

impala使用md5 超级简单,不用重新编码写UDF。

2022-10-27 15:10:01 1663

原创 采集全国疫情数据(Python)

使用Python获取全国疫情信息。疫情新增、无症状、高中风险地区,疫情更新时间等等。

2022-10-19 10:39:22 1116

原创 dolphinscheduler海豚调度升级(1.3.3->2.0.5)及问题总结

文章写于2022-04-14。我们公司用的海豚1.3.3版本,这个版本问题有点多。影响到了生产了,所以准备对海豚进行个升级。升级到海豚最新版本是2.0.5。这个版本还是有点坑,毕竟新增了一些东西。不过相对1.3.3,我更喜欢2.x的海豚。接下来,我将升级过程及升级后出现的BUG记录起来。官网升级步骤地址:https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/guide/upgrade.html升级还是比较容易的只需要.....

2022-04-14 18:40:26 7594 12

原创 海豚调度任务如何判断任务成功还是失败(源码)?

前言:在海豚调度中,大家肯定会遇到一种情况就是,任务成功,但是显示失败。是不是感觉很困扰。我现在也遇到这个情况。我们公司开发人员在执行之前老代码(hive引擎)的时候。偶尔成功偶尔失败。海豚调度到底是如何判断任务的成功和失败的?异常:查看海豚的worker日志。光看日志报错,各位大佬基本就能猜到了吧~没错,海豚在执行完,获取执行这个任务中的所有application_id。然后通过yarn的API。去获取最终状态。那是不是呢?我们看源码。源码位置:org/ap..

2022-02-25 16:17:13 3816 4

原创 根据Sparklens优化参数(图文解释)

前言如何使用Sparklens已经发给大家了传送门,那么如何根据生成的图去判断如何优化参数呢?如何判断数据倾斜该优化呢?参数优化1、如何设置executor 核数可以参考这个,如果浪费太多就减少一点。2、如何设置executor 内存查看发现这个峰值其实并不高。所以根据这个峰值来算。2~5倍最合适。当然可以看后端的解析日志,有提示。比如下面这个。在executor数量不变的情况下,提示给1.4G最合适。3、如何设置executor 数量设置不同的数量预计...

2022-01-21 13:04:49 1842 3

原创 dolphinScheduler1.3.3(海豚调度)worker卡死

前言对于我这个问题,我在社区上提过issues: https://github.com/apache/dolphinscheduler/issues/6959但是没有人回复和提供解决方案。然后我只能自己改源码,把问题就解决了。我把解决方案放到issues上。但是前段时间社区关闭了我的问题。所以我放到这里吧。问题我的海豚集群版本是1.3.3,我有两个master节点和很多workergroup,其中一个workergroup有一个worker节点。当我这个worker节点服务宕了。配置到这

2022-01-19 13:29:40 5701 8

原创 Spark资源监控优化工具:Sparklens实操

Spark优化工具-Sparklens实操,2022年最新测试且通过。针对网络隔离的集群,手把手教你如何编译,使用。

2022-01-11 15:10:40 4331 7

原创 Alluxio功能测试

1、功能测试0)查看命令alluxio fs ls /cos alluxio fs cat /cos/t1)上传文件到alluxioalluxio fs copyFromLocal /local /alluxio 下载到本地 alluxio fs copyToLocal /alluxio /local本地上传数据到alluxio映射的cos上。alluxio fs copyFromLocal dt=2021-09-06 /cos/shaiwu_check/2)

2021-09-13 10:23:43 636

原创 Alluxio基础知识

本章是记录Alluxio,我个人认为很有用的知识点。首次玩Alluxio的人可以看看。对Alluxio架构使用有疑问的可直接看问答。如果有其他疑问欢迎评论区提问。我使用的是Alluxio的1.8版本。相对比较老。参数没有新版本全。(友情提示,官网有的参数不准,选择1.8版本的文档,里面竟然有2.0以后的参数,导致参数使用后无法找到类)Alluxio分为3层最高MEM中层SSD底层HDD系统架构分为3块Master:负责集群元数据信息。Worker:主要负责存储。可

2021-09-13 10:16:50 456

转载 Alluxio调研

参考:Alluxio官网,腾讯云,优快云一、Alluxio简介Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。在大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Pr

2021-09-09 15:13:22 277

原创 Ray分布式机器学习-Raydp(与Spark集成)

参考:官网文档Ray与SparkDF集成Ray的数据集加载介绍:Ray Datasets are the standard way to load and exchange data in Ray libraries and applications. Datasets provide basic distributed data transformations such asmap,filter, andrepartition, and are compatible with a var...

2021-08-25 18:36:01 2406 2

原创 Sqoop双环境

背景:现在已经有一套sqoop环境了。但是因为其他事业部开通SSL加密。需要用另外的驱动包8.X。如果使用8.X就必须在脚本中新增配置参数。为了不影响之前脚本的运行。搭建双Sqoop环境。1、复制原来的Sqoop文件。cp sqoop sqoopssl2、配置环境变量(让用户可以使用sqoopssl的脚本)vim /etc/profile#写入export SQOOPSSL_HOME=/opt/sqoopsslPATH=$SQOOPSSL_HOME/bin#执行刷新配置文

2021-08-10 15:55:46 152

原创 iceberg-Flink1.11.0 测试案例

参考:官网,调研传送门测试使用的Flink1.11.0版本,本文分为SQL和Streaming一、配置及参数1、配置jar包:iceberg0.11.0版本,官网下载jar包,放到spark的lib目录下。注意:因为Flink链接Hive是通过Catalog进行操作的。所以需要提前进行Catalog链接创建。不支持:delete/merge/insert overwrite。仅支持追加。不支持:altert table 操作表。新增/删除/更改列。(如果需要改需使用spark引擎)2、

2021-04-06 15:42:16 472

原创 iceberg-Spark3.0 DF/Streaming 测试案例

参考:官网,调研传送门测试使用的Spark3.0版本,iceberg-Spark DF/Streaming 操作分2部分,DF、Streaming一、创建项目:组件版本sbt1.4.2scala2.12.10Spark3.0.0iceberg0.11.0build.sbt文件name := "Iceberg_smzdm"version := "0.1"scalaVersion := "2.12.10"libraryDependencies +

2021-04-06 15:21:54 518

原创 iceberg-Spark3.0SQL 测试案例

iceberg-spark3.0 测试案例参考:官网,调研传送门测试使用的Spark3.0版本,iceberg-Spark操作分3部分,SQL、DF、Streaming一、配置及参数1、配置jar包:iceberg0.11.0版本,官网下载jar包,放到spark的jars目录下。点击下载spark2.4和spark3的驱动包。注意:要在Spark中使用Iceberg,请首先配置catalogs(注意:Spark2.4不支持DDL操作)2、注意:1、iceberg命名空间:V1和V2表

2021-04-06 15:09:32 2621

原创 iceberg-hive 测试案例

iceberg-hive 测试案例参考:官网,调研传送门蓝瘦香菇,iceberg 太难操作了。真心不如Delta Lake操作的顺利一、配置及须知1、配置jar包:iceberg0.11.0版本,官网下载jar包,放到hive的lib目录下。2、参数:SET engine.hive.enabled=true;SET iceberg.engine.hive.enabled=true;SET iceberg.mr.catalog=hive; //使hive能访问spark下catalog为

2021-03-22 11:51:29 1656 4

原创 iceberg的调研报告

iceberg的调研报告参考:官网iceberg简介Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.设计初衷是:以类似于SQL的形式高性能的处理大型的开放式表, 联想HIVE工具!其对类似hive作

2021-03-15 17:16:01 2402 2

原创 Hive映射Delta表以及Spark3-sql操作DL表

Hive映射Delta表参考:git源码,连接器jar包:delta-hive-assembly_2.11-0.2.0.jar,delta-hive-assembly_2.12-0.2.0.jar,hive-delta_2.11-0.1.0.jar我们使用Spark操作DL表很方便,但是想更方便的用Hive去查看DL表,怎么做呢?经过测试趟坑,总结以下文章。各位大牛转载的请备注我的链接地址一、集群环境组件版本HDFS2.8.4Hive2.3.2Spark3.

2021-02-08 16:26:45 2004

原创 Spark多版本共存

前言我们公司用的是Spark2.3.2,但是现在测试DeltaLake又需要用到Spark3.0,所以在当前集群做多个Spark版本共存。一、下载下载当然是要去Spark官网下载咯。自己选择对应的版本下载。当然,如果没有对应的版本,就需要自己下载源码,更改版本然后重新进行编译。1、下载$ wget https://mirror.bit.edu.cn/apache/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz 2、解压,路径为/data/sof

2021-02-04 18:56:46 2175 6

原创 Delta Lake 测试案例

Delta Lake 测试案例参考:官网本篇我将写几个测试用例,来测试其功能,我这里使用sbt去创建项目,数据落盘到我本地电脑一、创建项目:组件版本sbt1.4.2scala2.12.10Spark3.0.0DeltaLake0.7.0build.sbt文件name := "DaltaLake"version := "0.1"scalaVersion := "2.12.10"libraryDependencies += "org.apach

2021-02-02 15:46:25 946

原创 Delta Lake的调研报告

Delta Lake的调研报告参考:DeltaLake官网,Delta 初探,DeltaLake,DeltaLake详解架构图Delta Lake简介在说 Delta Lake 之前,要先提一下 Data Lake ,Data Lake 的主要思想是将企业中的所有数据进行统一管理。例如基于 Hadoop 的 Data Lake 方案可以非常低成本的存储所有类型的数据。基于 hadoop 的方案只支持批量插入,且用户读取时可能无法获取最新数据,多用户同时进行写操作还会发生异常,带来脏数据的问题,

2021-01-27 14:19:16 733

sparklens2.11-0.3.2.jar

sparklens的jar包。根据spark2.3.2及HDFS2.8.4版本编译

2022-02-11

delta-core_2.12-0.7.0.jar

Spark-delta所需要的包

2021-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除