
Spark
文章平均质量分 72
Spark相关
Jack_Roy
剃人头者,人亦剃其头。
展开
-
【Spark3.2】io.netty.buffer.PooledByteBufAllocator.<init>(ZIIIIIIZ)V
【Spark3.2】io.netty.buffer.PooledByteBufAllocator.(ZIIIIIIZ前言报错解决方案后记前言在IDEA集成Spark3.2写了一个SparkStreaming程序,通过打jar包的方式提交集群运行十分顺利,但是在IDEA调试运行(local模式)main方法却抛出了异常。报错运行main方法报错:Exception in thread "main" java.lang.NoSuchMethodError: io.netty.buffer.Pooled原创 2022-04-22 15:50:22 · 5906 阅读 · 4 评论 -
【hive/beeline/spark】建表多分隔符,报:org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe
【hive/beeline/spark】建表多分隔符,报:org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe前言HIVE SHELL调整报错解决方案BEELINE调整报错解决方案SPARK调整解决方案后记前言大数据平台数据入湖逻辑执行方式从Impala改为beeline(连接hive)的方式后,在sql语句层面上做了一些调整(如DDL语句、分区字段等)。而后又发现,切换后hive默认不支持多字符作为行分隔符,设置多个字符==!@!==,但只会识原创 2022-01-19 11:06:52 · 3410 阅读 · 1 评论 -
【pyspark】CDH升级后Spark写入Hbase报错问题
【pyspark】CDH升级后Spark写入Hbase报错问题前言报错找不到StringToImmutableBytesWritableConverte类报错分析解决办法找不到 org.apache.hadoop.hbase.client.Put类中的add方法问题分析解决办法后记前言之前写了一版本Spark推数程序,将hive表内容经过列式转换后写入到Hbase:【pyspark】酷酷的hive推数程序(至Hbase)现在对于集群进行了升级,升级前的版本是这样的:CDH5.1Spark1原创 2021-07-13 11:09:56 · 844 阅读 · 0 评论 -
【Spark2运算效率】第六节 影响生产集群运算效率的原因之网络IO
【Spark2运算效率】第六节 影响生产集群运算效率的原因之网络IO前言问题概述案例结语跳转前言在磁盘IO速率和网络接口IO传输速率匹配的情况下,更快的网络IO能够极大提升Spark程序Shuffle过程中Executor交换数据的速度,认识到这一点,网络IO对于集群效率的影响不言而喻,主机间可用带宽越高就意味着Spark程序数据交换速度越快;问题概述在前言中,我着重强调了主机间的可用带宽越高,Spark程序数据交换速度越快,而不是机房环境的整体网络带宽。对于整个集群的调度来说,机房带宽越高,集群整原创 2020-12-17 14:31:40 · 7416 阅读 · 0 评论 -
【CDH CM版本5.13以下】解决「通过Parcel对spark2版本升级无法发现服务」问题
【CDH CM版本5.13以下】通过Parcel对spark2版本升级无法发现服务前言现象报错报错原因新升级方案操作留档准备升级升级验证版本回退回退验证后记前言公司对于CDH5.10(注意这个版本)有三个物理集群(非云服务,自有机房),其中两个作为生产,一个作为测试,。生产集群目前都处于满负荷运载的状态,随着业务数据增生,计算方面的瓶颈已较为明显。对于生产集群的性能提升团队已经想了很多办法,从jar、脚本、底层文件这些都进行了调整,虽然有效果,但还是存在不少问题。而对于分布式计算框架+引擎的spar原创 2020-08-24 11:44:47 · 14154 阅读 · 3 评论 -
【spark2】“spark2 on yarn client提交模式下报错:XXXX line xx: xxxx 已杀死 ”问题剖析
【spark2】ai-bigdata-20200806.sh: 行 24: 10259 已杀死 spark2-submit --driver-memory 14G --executor-memory 16G --driver-cores 2 --executors-cores 3 --num-executors 64 --conf spark.shuffle.consolidateFiles=true --conf.scheduler.listenerbus.eventqueue.size=500000原创 2020-08-06 12:23:49 · 14118 阅读 · 0 评论 -
【pyspark】酷酷的hive推数程序(至Hbase)
【pyspark】hive推数程序(至Hbase)前言效果pyspark脚本Submit脚本后记前言首先要说明博主这里的hive与Hbase是在物理隔离的两个集群里,如果是同一个集群环境的话,理论上运行速度是会更快的。采用Shell+Python编写的spark程序,client模式下,输出做了高亮处理,让运行过程更直观(cluster模式需要对输出进行微调,不然会找不到相关类的错误,这是由于lib包的问题导致的)。效果正常运行效果:异常运行效果:pyspark脚本我们直接上脚本(需要改z原创 2020-06-12 12:07:09 · 14175 阅读 · 0 评论 -
【hive on spark Error】return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.
ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. 前言报错信息异常分析配置改动后记前言成功消除Cloudare管理界面上那些可恶的警告之后,又对yarn的一些参数进行了调优,重启集群,得意洋洋地提个任务(spark on yarn)看到并...原创 2019-11-07 20:24:25 · 24901 阅读 · 15 评论 -
【Spark2运算效率】第五节 影响生产集群运算效率的原因之小文件
【Spark2运算效率】【Spark2运算效率】第五节 影响生产集群运算效率的原因之小文件前言问题概述案例结语跳转前言关于小文件的治理方案颇多,可以回归到hdfs底层的block层面看待治理问题。,首先可以通过查询命令(hadoop dfs -count 路径)来查看路径目录下文件夹数目、文件数目及文件总大小(博主曾分享过相关的自动化脚本,有需要的可以去看看,很容易上手【小工具】 hdfs路径...原创 2020-02-12 19:06:23 · 13213 阅读 · 1 评论 -
【Spark2运算效率】第四节 影响生产集群运算效率的原因之数据倾斜
【Spark2运算效率】【Spark2运算效率】第四节 影响生产集群运算效率的原因之数据倾斜前言倾斜实例治理过程结语跳转前言当ETL调度任务所能拥有的资源能够满足其在较为资源冗余的状况下实施运算,长时间的运算过程中可能是涉及了数据倾斜的现象;数据倾斜可以说是分布式运算中不可避免的一种现象,这种现象带来的后果就是任务执行时长会随着倾斜度的增加而变长,甚至会有Fail的风险(任务重跑);不管是任...原创 2020-02-12 18:38:00 · 14066 阅读 · 0 评论 -
【Spark2运算效率】第三节 影响生产集群运算效率的原因之资源缺乏
【Spark2运算效率】第一节 影响生产集群运算效率的原因之概述前言问题概述调整办法结语跳转前言面对复杂的业务问题,以及日益增多的需求,我们开发的脚本也越来越多,集群承载的计算量也越来越大,为了方便管理,很多企业引进或者自研出了适配的调度系统。本节的调优办法要根据自身公司调度系统的特点,进行分析后再做出相应的调试(调优一方面追求单个作业的高效性,也要使得整体作业批次的执行时长被压缩,本节是从...原创 2020-02-12 17:55:57 · 12967 阅读 · 0 评论 -
【Spark2运算效率】第二节 影响生产集群运算效率之集群设置
前言相较于Spark任务submit时的一些参数指定,作为资源调度框架的yarn,以及底层支撑或作为接口对接的hive与其他hadoop生态组件,它们的一些硬性指标的设置影响着任务提交后的资源申请模式及运行模式。因此,在优化我们集群的运算效率时,第一步就是将底层相关指标调整到位,下面就相关参数,给出相应的讲解。IO(磁盘IO及网络IO)就论HDFS本身而言,它往往承载着整个数仓的数据,因此...原创 2020-02-12 01:14:30 · 15269 阅读 · 0 评论 -
【Spark2运算效率】第一节 影响生产集群运算效率的原因之概述
第一节 影响分布式集群运算效率的原因1.1、引言1.2、影响分布式集群运算效率的原因1.2.1、集群设置;1.2.2、缺乏资源;1.2.3、数据倾斜;1.2.4、小文件过多;1.3、结语1.1、引言Spark,一种基于内存的分布式运算框架,其内部进行任务划分,实现了高效的DAG执行引擎,可以通过基于内存来高效地处理数据流。就一般而言,Spark用于实现ETL调度job执行流程如图所示:1....原创 2019-07-29 14:58:44 · 13024 阅读 · 0 评论 -
【Spark2参数调优】submit Spark sql脚本并行度调优
spark2 submit Spark sql脚本并行度调优疑问:关于spark.default.parallelism现象 :每个executor所分配的core小于active task的数量解决:指定spark.sql.shuffle.partitions数量都说程序员不配享受生活,最近几个月一直在吃“两条线”,白天挖焦煤,晚上扒火车,真是比铁道游击队还苦逼!疑问:关于spark.d...原创 2019-04-28 15:54:21 · 15624 阅读 · 2 评论 -
【spark2.4.4源码编译】windows环境编译spark2.4.4源码
windows环境下如何编译spark2.4.4源码环境要求环境安装源码下载源码编译注意事项后记环境要求操作系统环境:Windows 10(Windows7、Windows8亦可)Java版本: jdk1.8Scala版本:2.11.0Maven版本:3.5.4Git版本:版本无要求以上相关组件的版本是根据spark2.4.4源码的pom文件里的组件版本进行梳理的:根据这组配置...原创 2019-11-09 17:03:47 · 14157 阅读 · 18 评论