How-to: resolve "java.io.NotSerializableException" issue during spark reading hbase table

最新推荐文章于 2022-06-21 17:19:45 发布

原创最新推荐文章于 2022-06-21 17:19:45 发布 · 2.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hbase #serializer

本文介绍了一个在使用Spark Scala代码读取HBase表时遇到的非序列化异常问题，并给出了通过配置Kryo序列化器来解决此问题的方法。

During reading htable via spark scala code, the following error happened:

15/10/28 16:39:00 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 10.0 (TID 2536, slave14.dc.tj): java.lang.RuntimeException: java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable
Serialization stack:
        - object not serializable (class: org.apache.hadoop.hbase.io.ImmutableBytesWritable, value: 30 30 5f 39 39 39 38 38 33)
        - field (class: scala.Tuple2, name: _1, type: class java.lang.Object)
        - object (class scala.Tuple2, (30 30 5f 39 39 39 38 38 33,keyval......

at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:40)
        at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:47)
        at org.apache.spark.serializer.SerializationStream.writeAll(Serializer.scala:153)
        at org.apache.spark.storage.BlockManager.dataSerializeStream(BlockManager.scala:1190)

......

The solution is turn spark to use KryoSerializer:

sparkconf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

Reference:
 http://spark.apache.org/docs/latest/tuning.html#data-serialization

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chenfangfang_2015

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark NotSerializableException

Love-Coding

11-27

619

已经extends Serializable 但是因为类里有个对象没有extends Serializable 所以报这个错把这个对象放到一个比如init()方法里以及其他地方修改下即可

Spark学习：spark读取HBase数据报异常java.io.NotSerializableException

九师兄

08-15

4747

java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

参与评论您还未登录，请先登录后发表或查看评论

java.io.NotSerializableException: org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplem

向阳争渡

08-20

3801

在开发[Spark Streaming 读取Kafka数据写入HBASE]一套流程中，遇到了很多关于Serializable的问题： 1、kafka是一种C-S架构，producer产生的消息经过序列化后才能在网络上传播 2、Spark的transform序列化 3、在将DStream数据写入HBASE时，写入的操作时，需要在foreach算子中访问外部的HTable、Connection等...

Spark中使用take截取数据时报错：java.io.NotSerializableException

蚂蚁

08-05

1141

发生场景在使用Spark读取HBase中的数据时不使用take函数截取数据时读取到的HBase中的数据可以正常输出但是使用take操作截取数据时就会抛出异常 java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable 发生原因 Spark分为两大角色Driver与Executor...

hbase scala 实例_如何使用Spark/Scala读取Hbase的数据

weixin_39524247的博客

12-19

278

必须使用高亮参数启动Spark-shell,否则当你遍历RDD时会出现如下的Exceptionjava.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritablespark-shell--conf spark.serializer=org.apache.spark.serializer.KryoSer...

Spark not serializable 异常分析及解决方案

少女秘封俱乐部

11-22

2088

一、背景在使用spark开发分布式数据计算作业过程中或多或少会遇到如下的错误： Serialization stack: object not serializable (class:class: org.apache.hadoop.hbase.io.ImmutableBytesWritable, value: 30 30 30 30 30 30 32 34 32 30 32 37 37 ...

解决问题记录：Could not resolve io.realm:realm-gradle-plugin:7.0.0-beta-SNAPSHOT

再简单的事，也要用心做成！

09-15

2287

今天打开项目，突然爆这个错误： A problem occurred configuring root project 'xxx'. > Could not resolve all artifacts for configuration ':classpath'. > Could not resolve io.realm:realm-gradle-plugin:7.0.0-beta-SNAPSHOT. Required by: project : &

Android 解决： Failed to resolve: com.android.support:appcompat-v7:28.+ 错误

热门推荐

谢岩的博客

01-22

5万+

今天，简单讲讲Android studio编译报错：Failed to resolve: com.android.support:appcompat-v7:28.+的问题。这个问题其实之前遇到过，今天又遇到了。所以记录一下。总的来说，就是Android studio的SDK工具版本低于工程需要的SDK工具版本，SDK Build-Tools与工程所需的不一致。具体讲解如下：具...

spark - Caused by: java.net.UnknownHostException: XXX

Bsj' blog

08-03

1894

spark Caused by: java.net.UnknownHostException: XXX Exception in thread "main" java.lang.reflect.UndeclaredThrowableException at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1761) at org.apache.spark.deploy.S

【maven】: e-iceblue:spire.doc.free:pom:2.7.3 failed to transfer from http://0.0.0.0/ during a previou

Jack_Kuo的博客

06-21

6902

在使用spire的doc包的时候遇到报错：解决使用国内的地址：将下面的换为：

Android Studio报错：ERROR: Failed to resolve: com.android.support:appcompat-v7:28.0.+

GeofferySun的专栏

08-18

4363

Android Studio报错：ERROR: Failed to resolve: com.android.support:appcompat-v7:28.0.+ 今天新导入一个Project项目，上来就报错找不到类库，Google狠起来自己的儿子都编译不过了么？吐血，如下： ERROR: Failed to resolve: com.android.support:appcompat-v7:2...

Spark Caused by: java.io.NotSerializableException 序列化异常踩过的坑

Java_Man_China的博客

10-22

1510

https://blog.csdn.net/qq_28743951/article/details/86599918

had a not serializable result: org.apache.hadoop.hbase.io.ImmutableBytesWritable

醉糊涂仙的博客

07-04

1513

代码第一行补充: System.setProperty(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)

spark<java.io.NotSerializableException>

Gpwner的博客

09-13

2879

我新定义了一个类（tools.UCleaner），放到Spark中做数据清洗的时候，跑了一个任务未序列化的异常Exception in thread "main" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(

java.io.Notserializableexception错误解决方法

赞哈哈的博客

06-07

9346

问题原因：没有序列化 java.io.Notserializableexception:类名 java.io.Notserializableexception:com.zan.pojo.User 解决方法：实现Serializable接口 package com.zan.pojo; public class User implements Serializable{ private String name; private String phone; } ...

最新发布

06-04

### 无法解析的依赖项解决方案在Maven项目中，当某些依赖项无法解析时，通常是因为以下原因之一：依赖项版本不存在、依赖项未发布到中央仓库、本地Maven配置问题或网络连接问题。以下是针对每个依赖项的具体解决方案。 #### 1. **检查依赖项版本是否存在** 确保所使用的依赖项版本确实存在。可以通过访问[Maven Central Repository](https://search.maven.org/)来验证依赖项及其版本是否可用。例如： - `gson` 2.9.1[^1] - `tika-core` 2.9.0[^1] - `spring-context-support`[^1] - `kaptcha` 2.3.3[^1] - `commons-io` 2.13.0 - `mybatis-plus-boot-starter` 3.5.5[^1] - `minio` 8.2.2 - `spring-cloud-aws-starter-sqs` 3.0.0 如果某个版本不存在，则需要选择正确的版本号。 #### 2. **添加正确的仓库地址** 某些依赖项可能不在Maven中央仓库中，而是托管在其他仓库（如阿里巴巴云仓库、Spring官方仓库等）。需要在`pom.xml`中添加相应的仓库地址。例如： ```xml <repositories> <repository> <id>alibaba</id> <url>https://maven.aliyun.com/repository/public</url> </repository> <repository> <id>spring-milestones</id> <url>https://repo.spring.io/milestone</url> </repository> </repositories> ``` #### 3. **解决特定依赖项问题** 以下是一些常见依赖项的问题及解决方案： - **`spring-security-core` 5.7.12** 确保与`spring-boot-starter-parent`版本兼容。如果版本冲突，可以使用`dependencyManagement`显式声明版本[^3]。 - **`spring-cloud-starter-alibaba-nacos-discovery`** 需要添加阿里云的Maven仓库，并确保版本与`spring-cloud-alibaba`的BOM兼容[^4]。 - **`spring-cloud-starter-alibaba-sentinel`** 同样需要添加阿里云仓库，并确保版本与`spring-cloud-alibaba`的BOM兼容[^4]。 - **`spring-cloud-starter-openfeign`** 确保与`spring-cloud-dependencies`版本兼容。如果版本冲突，可以使用`dependencyManagement`显式声明版本[^3]。 - **`dynamic-datasource-spring-boot-starter` 4.3.1** 需要添加阿里云仓库，并确保版本与`spring-boot-starter-parent`兼容。 - **`aws-sdk-java` 2.29.45** 如果无法解析，可能是由于网络问题或仓库配置不正确。建议添加AWS官方仓库[^4]。 #### 4. **检查本地Maven配置** 确保本地`settings.xml`文件中没有错误配置。例如，代理设置可能导致某些依赖项无法下载。可以通过以下命令检查Maven配置： ```bash mvn help:effective-settings ``` #### 5. **清理并重新构建项目** 有时缓存问题会导致依赖项无法解析。可以尝试以下命令清理并重新构建项目： ```bash mvn clean install -U ``` #### 6. **代码示例：完整的`pom.xml`片段** 以下是一个完整的`pom.xml`片段，展示了如何正确配置依赖项和仓库： ```xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.6.3</version> </parent> <dependencies> <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId> <version>2.9.1</version> </dependency> <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-core</artifactId> <version>2.9.0</version> </dependency>  </dependencies> <repositories> <repository> <id>alibaba</id> <url>https://maven.aliyun.com/repository/public</url> </repository> <repository> <id>spring-milestones</id> <url>https://repo.spring.io/milestone</url> </repository> </repositories> </project> ``` ###