Spark job jar包冲突解决方案

本文介绍了在Spark集群中因Snappy版本冲突导致的UnsatisfiedLinkError异常,并提供了详细的解决方案,包括如何通过调整类路径来避免版本冲突。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在spark上部署程序使用logback发送日志到graylog2的过程中,碰到异常:

java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.uncompressedLength(Ljava/lang/Object;II)I
	at org.xerial.snappy.SnappyNative.uncompressedLength(Native Method)
	at org.xerial.snappy.Snappy.uncompressedLength(Snappy.java:541)
	at org.xerial.snappy.SnappyInputStream.hasNextChunk(SnappyInputStream.java:350)
	at org.xerial.snappy.SnappyInputStream.rawRead(SnappyInputStream.java:158)
	at org.xerial.snappy.SnappyInputStream.read(SnappyInputStream.java:142)
	at com.esotericsoftware.kryo.io.Input.fill(Input.java:140)
	at com.esotericsoftware.kryo.io.Input.require(Input.java:155)
	at com.esotericsoftware.kryo.io.Input.readInt(Input.java:337)
	at com.esotericsoftware.kryo.util.DefaultClassResolver.readClass(DefaultClassResolver.java:109)
	at com.esotericsoftware.kryo.Kryo.readClass(Kryo.java:610)
	at com.esotericsoftware.kryo.Kryo.readClassAndObject(Kryo.java:721)
	at org.apache.spark.serializer.KryoDeserializationStream.readObject(KryoSerializer.scala:228)
	at org.apache.spark.broadcast.TorrentBroadcast$.unBlockifyObject(TorrentBroadcast.scala:217)
	at org.apache.spark.broadcast.TorrentBroadcast$$anonfun$readBroadcastBlock$1.apply(TorrentBroadcast.scala:178)
	at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1206)
	at org.apache.spark.broadcast.TorrentBroadcast.readBroadcastBlock(TorrentBroadcast.scala:165)
	at org.apache.spark.broadcast.TorrentBroadcast._value$lzycompute(TorrentBroadcast.scala:64)
	at org.apache.spark.broadcast.TorrentBroadcast._value(TorrentBroadcast.scala:64)
	at org.apache.spark.broadcast.TorrentBroadcast.getValue(TorrentBroadcast.scala:88)
	at org.apache.spark.broadcast.Broadcast.value(Broadcast.scala:70)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:62)
	at org.apache.spark.scheduler.Task.run(Task.scala:89)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:242)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:748)

另外一个异常:

java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.maxCompressedLength(I)I
	at org.xerial.snappy.SnappyNative.maxCompressedLength(Native Method)
	at org.xerial.snappy.Snappy.maxCompressedLength(Snappy.java:316)
	at org.xerial.snappy.SnappyOutputStream.<init>(SnappyOutputStream.java:79)
	at org.apache.spark.io.SnappyCompressionCodec.compressedOutputStream(CompressionCodec.scala:156)
	at org.apache.spark.broadcast.TorrentBroadcast$$anonfun$4.apply(TorrentBroadcast.scala:200)
	at org.apache.spark.broadcast.TorrentBroadcast$$anonfun$4.apply(TorrentBroadcast.scala:200)
	at scala.Option.map(Option.scala:145)
	at org.apache.spark.broadcast.TorrentBroadcast$.blockifyObject(TorrentBroadcast.scala:200)
	at org.apache.spark.broadcast.TorrentBroadcast.writeBlocks(TorrentBroadcast.scala:102)
	at org.apache.spark.broadcast.TorrentBroadcast.<init>(TorrentBroadcast.scala:85)
	at org.apache.spark.broadcast.TorrentBroadcastFactory.newBroadcast(TorrentBroadcastFactory.scala:34)
	at org.apache.spark.broadcast.BroadcastManager.newBroadcast(BroadcastManager.scala:63)
	at org.apache.spark.SparkContext.broadcast(SparkContext.scala:1334)

 

问题原因:

应用程序使用到的snappy-java版本是1.1.1.6,但是默认加载的spark系统默认的包

CDH-5.10.2-1.cdh5.10.2.p0.5/lib/hadoop/lib/snappy-java-1.0.4.1.jar

在1.0.4.1包里没有相应的方法,所以报错。

 

TIPS:

查看具体使用的是哪个版本方法:spark-submit 的时候添加

--driver-java-options -verbose:class

 

解决方法:

spark-submit的时候添加:

--jars yourSnappyJar   \
--conf "spark.driver.extraClassPath=snappy-java-version.jar" \
--conf "spark.executor.extraClassPath=snappy-java-version.jar" \

使用spark.{driver,executor}.extraClassPath显示的把需要引用的包加入到类路径的最前面,这样就解决了spark classpath和user classpath里有相同包冲突的问题。

 

参考文献2的方法也能解决问题,但是修改了spark的全局环境,容易引起其他应用错误,故不推荐。

spark 的包依赖关系总结,请移步:https://blog.youkuaiyun.com/adorechen/article/details/80110272#summary

 

参考文献:

https://github.com/broadinstitute/gatk/issues/1873

http://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Override-libraries-for-spark/td-p/32125

<think>好的,用户之前问了关于Hadoop MapReduce中主类全限定名的问题,现在又问导入的jar包应该放在哪里。我需要先确定用户的使用场景。用户可能是在开发Hadoop应用,遇到了依赖管理的问题,或者是在部署时遇到了类路径的问题。 用户可能是Hadoop的初学者,不太清楚如何管理第三方库。他们可能自己写了一个MapReduce作业,需要用到外部的jar包,比如JSON解析库或者其他工具库。这时候需要知道这些jar包应该放在哪里才能被Hadoop正确加载。 接下来,我需要回忆Hadoop处理依赖的方式。Hadoop作业在集群运行时,依赖的jar包需要被打包到作业的jar文件中,或者通过Hadoop的分布式缓存机制添加到classpath中。另外,如果是本地模式运行,可能需要将jar包放在本地classpath下。 用户的真实需求可能是想让他们的应用程序能够正确引用这些第三方库,避免ClassNotFoundException。他们可能尝试过直接放在某个目录但没成功,或者不确定正确的做法。需要给出不同情况下的解决方案,比如打包到uber jar,使用-libjars选项,或者修改Hadoop的环境变量。 另外,用户可能没有使用构建工具,或者对Maven/Gradle不熟悉,所以需要给出手动处理的方法,同时也推荐使用构建工具来简化依赖管理。需要分情况说明,比如本地开发、集群提交等不同场景下的处理方式。 还要注意常见的错误,比如路径错误、权限问题,以及Hadoop版本和依赖库的兼容性问题。需要提醒用户检查这些方面,确保jar包的正确性和兼容性。 最后,总结最佳实践,比如优先使用构建工具,明确作用域,避免冲突,这样用户能够有一个清晰的指导,避免后续再遇到类似问题。</think>在Hadoop生态系统中处理第三方JAR包依赖时,需根据具体使用场景选择部署方式。以下是不同情况下的详细解决方案: ### 一、本地开发模式 $$ \text{Classpath管理} = \begin{cases} \text{IDE直接添加} & \text{推荐方案} \\ \text{手动配置路径} & \text{备用方案} \end{cases} $$ 1. **IDE集成开发(推荐)** 以IntelliJ IDEA为例: ```mermaid graph TD A[项目结构] --> B[Modules] B --> C[Dependencies] C --> D[+] D --> E[选择JAR文件] ``` 建议使用Maven/Gradle管理依赖: ```xml <!-- Maven示例 --> <dependency> <groupId>com.example</groupId> <artifactId>custom-lib</artifactId> <version>1.0.0</version> </dependency> ``` 2. **命令行编译(需配置环境变量)** 通过`-cp`参数指定类路径: ```bash javac -cp "/path/to/your/*:hadoop-classpath" YourClass.java ``` ### 二、集群运行模式 #### 方案1:打包Uber JAR(首选) 使用Maven Shade插件创建包含所有依赖的Fat JAR: ```xml <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>3.2.4</version> <executions> <execution> <phase>package</phase> <goals> <goal>shade</goal> </goals> </execution> </executions> </plugin> ``` 生成路径:`target/your-project-1.0-SNAPSHOT-shaded.jar` #### 方案2:分布式缓存机制 通过`-libjars`参数动态分发依赖: ```bash hadoop jar your-job.jar \ -libjars /path/to/custom.jar \ input_path output_path ``` 需在Driver类中添加: ```java job.addFileToClassPath(new Path("/path/to/custom.jar")); ``` #### 方案3:HDFS全局部署(慎用) ```bash # 上传到HDFS公共目录 hdfs dfs -put custom.jar /common-libs/ # 配置所有节点的HADOOP_CLASSPATH export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/common-libs/custom.jar ``` ### 三、特殊场景处理 1. **Hive/UDF场景** 在Hive CLI中添加临时依赖: ```sql ADD JAR /path/to/custom.jar; CREATE TEMPORARY FUNCTION my_udf AS 'com.example.MyUDF'; ``` 2. **Spark集成** 使用`--jars`参数或`spark.jars`配置: ```bash spark-submit --jars /path/to/custom.jar your_spark_app.py ``` ### 四、路径配置对照表 | 部署方式 | 物理路径 | 生效范围 | 适用场景 | |-------------------|-----------------------------|----------------|----------------------| | Uber JAR | 包含在应用程序JAR内 | 作业级别 | 标准MapReduce作业 | | -libjars | 本地文件系统 | 单个作业 | 临时调试/快速验证 | | HADOOP_CLASSPATH | 所有节点相同路径 | 集群全局 | 基础工具库 | | HDFS公共目录 | hdfs:///common-libs/ | 所有HDFS作业 | 高频使用公共库 | ### 五、验证依赖是否生效 通过Runtime类检查类路径: ```java public class ClassPathChecker { public static void main(String[] args) { String classpath = System.getProperty("java.class.path"); System.out.println("Current Classpath: \n" + classpath); } } ``` 运行输出示例: ``` Current Classpath: /path/to/custom.jar:/opt/hadoop/share/hadoop/common/*:... ``` ### 六、常见错误排查 1. **ClassNotFoundException** - 检查JAR文件是否包含目标类 - 确认路径中使用的分隔符(Linux用`:`,Windows用`;`) 2. **NoSuchMethodError** - 版本冲突时使用`mvn dependency:tree`分析依赖 3. **权限问题** ```bash # 确保HDFS文件可读 hdfs dfs -chmod -R 755 /common-libs ``` ### 七、最佳实践建议 1. 优先使用Maven/Gradle管理依赖 2. 为测试环境与生产环境建立不同的依赖仓库 3. 对高频更新库采用`SNAPSHOT`版本管理 4. 定期执行依赖清理: ```bash # 查找未使用依赖 mvn dependency:analyze ``` 通过合理选择部署策略,可有效平衡开发效率与运行时性能。对于长期运行的生产系统,推荐采用HDFS公共目录+版本控制的方式管理关键依赖。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值