pyspark连hbase报org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter

ERROR python.Converter: Failed to load converter: org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/var/lib/spark/cspark/python/pyspark/context.py", line 678, in newAPIHadoopRDD
    jconf, batchSize)
  File "/var/lib/spark/cspark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
  File "/var/lib/spark/cspark/python/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/var/lib/spark/cspark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py", line 319, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD.
: java.lang.ClassNotFoundException: org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter
	at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
	at java.lang.Class.forName0(Native Method)
	at java.lang.Class.forName(Class.java:348)
	at org.apache.spark.util.Utils$.classForName(Utils.scala:229)
	at org.apache.spark.api.python.Converter$$anonfun$getInstance$1$$anonfun$1.apply(PythonHadoopUtil.scala:46)
	at org.apache.spark.api.python.Converter$$anonfun$getInstance$1$$anonfun$1.apply(PythonHadoopUtil.scala:45)
	at scala.util.Try$.apply(Try.scala:192)
	at org.apache.spark.api.python.Converter$$anonfun$getInstance$1.apply(PythonHadoopUtil.scala:45)
	at org.apache.spark.api.python.Converter$$anonfun$getInstance$1.apply(PythonHadoopUtil.scala:44)
	at scala.Option.map(Option.scala:146)
	at org.apache.spark.api.python.Converter$.getInstance(PythonHadoopUtil.scala:44)
	at org.apache.spark.api.python.PythonRDD$.getKeyValueConverters(PythonRDD.scala:743)
	at org.apache.spark.api.python.PythonRDD$.convertRDD(PythonRDD.scala:756)
	at org.apache.spark.api.python.PythonRDD$.newAPIHadoopRDD(PythonRDD.scala:580)
	at org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD(PythonRDD.scala)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
	at py4j.Gateway.invoke(Gateway.java:280)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.GatewayConnection.run(GatewayConnection.java:214)
	at java.lang.Thread.run(Thread.java:745)


解决办法:

在Spark 2.0版本上缺少相关把hbase的数据转换python可读取的jar包,需要我们另行下载。

下载jar包spark-examples_2.11-1.6.0-typesafe-001.jar(https://mvnrepository.com/artifact/org.apache.spark/spark-examples_2.11/1.6.0-typesafe-001),然后在你的spark安装目录下创建目录存放这个jar

 执行如下命令

 1: mkdir /var/lib/spark/jars/hbase/

 2:rz命令上传刚才下载的jar包(现在最新版本是spark-examples_2.11-1.6.0-typesafe-001.jar)

3:进入spark的conf目录下修改spark-env.sh添加:

export SPARK_DIST_CLASSPATH=$(/opt/cloudera/parcels/CDH-5.13.1-1.cdh5.13.1.p0.2/bin/hadoop classpath):$(/opt/cloudera/parcels/CDH-5.13.1-1.cdh5.13.1.p0.2/bin/hbase classpath):/var/lib/spark/jars/hbase/*

/opt/cloudera/parcels/CDH-5.13.1-1.cdh5.13.1.p0.2/bin/hadoop:改成自己的hadoop安装目录

/opt/cloudera/parcels/CDH-5.13.1-1.cdh5.13.1.p0.2/bin/hbase:改成自己的hbase安装目录

最后重启下hbase,ok了



<think>好的,用户遇到了Spark加载org.apache.spark.examples.SparkPi类失败的问题,并且出现了无法加载本地Hadoop库的警告信息。需要一步步分析可能的原因和解决方案。 首先,用户提到的错误信息是“Unable to load native-hadoop library for your platform… using builtin-java classes where applicable”[^1]。这说明Hadoop的本地库未能正确加载,可能影响性能,但通常不会直接导致类找不到的错误。不过,需要检查本地库的配置是否正确。 接下来,用户的问题是关于SparkPi类加载失败。SparkPi示例类属于Spark自带的例子,通常在spark-examples.jar中。因此,首先要确认Spark的环境配置是否正确,特别是类路径是否包含该JAR文件。可能的路径问题或JAR文件缺失会导致该错误。 另外,用户引用的另一个错误是“ClassNotFoundException: org.apache.hadoop.hbase.CompatibilityFactory”[^2],虽然问题不同,但解决方法涉及将缺失的JAR文件放入HDFS的特定目录。这可能提示用户需要检查Spark的依赖管理,确保所有必要的JAR文件在类路径中可用。 此外,用户的Hadoop版本是CDH 5.7.0[^3],而Spark可能需要对应版本的依赖库。版本不兼容也可能导致类找不到的问题。需要确认Spark和Hadoop版本是否匹配,特别是spark-examples的版本是否与Spark核心库一致。 还可能存在配置文件的错误,比如hdfs-site.xml的配置是否正确,但用户引用的内容显示有格式错误[^4],这可能导致HDFS相关的问题,但可能与SparkPi类加载无直接关联。不过,配置文件的正确性仍然需要检查。 总结可能的原因和解决步骤: 1. 确认spark-examples.jar是否存在,并正确包含在Spark的类路径中。 2. 检查Hadoop本地库的安装和配置,确保平台兼容性。 3. 验证所有依赖的JAR文件是否完整,特别是与示例类相关的部分。 4. 确保Spark和Hadoop的版本兼容,必要时重新配置或下载正确版本。 5. 检查Spark的启动命令,确保正确指定主类和其他参数。</think>要解决Spark加载`org.apache.spark.examples.SparkPi`类失败及Hadoop本地库加载警告的问题,请按以下步骤排查: --- ### **1. 检查Spark示例JAR路径** SparkPi类位于`spark-examples.jar`中,需通过`--jars`或`--packages`显式指定路径: ```bash # 示例启动命令(根据实际路径调整) spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ /path/to/spark/examples/jars/spark-examples_2.12-3.3.0.jar # 版本需与Spark匹配 ``` --- ### **2. 修复Hadoop本地库警告** 警告`Unable to load native-hadoop library`[^1]表明本地库未正确加载: - **验证本地库文件** 检查Hadoop安装目录的`lib/native`下是否存在`.so`文件(Linux)或`.dll`(Windows) - **设置环境变量** 在`spark-env.sh`中添加: ```bash export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH ``` --- ### **3. 确保依赖完整性** 若出现`ClassNotFoundException`(如引用[^2]中的`CompatibilityFactory`问题): - **手动添加缺失JAR** 将`spark-examples.jar`上传到Spark的`jars`目录: ```bash hadoop dfs -put spark-examples_2.12-3.3.0.jar /user/spark/extlib/ # 参考HDFS路径 ``` - **检查版本兼容性** 确认Spark、Hadoop和JDK版本匹配(如CDH 5.7.0对应Hadoop 2.6.0) --- ### **4. 验证配置文件** 检查Hadoop配置文件(如`hdfs-site.xml`)的语法: ```xml <!-- 示例正确格式 --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` --- ### **5. 完整解决方案流程** ```bash # 步骤1: 上传spark-examples.jar到集群 cp spark-examples_2.12-3.3.0.jar $SPARK_HOME/jars/ # 步骤2: 设置本地库路径 echo "export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native" >> $SPARK_HOME/conf/spark-env.sh # 步骤3: 提交任务 spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ $SPARK_HOME/jars/spark-examples_2.12-3.3.0.jar 100 # 计算π的位数 ``` ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值