[Spark 基础]-- 保持Spark sql join 的字段类型一致

最新推荐文章于 2023-05-09 04:31:44 发布

oo寻梦in记

最新推荐文章于 2023-05-09 04:31:44 发布

阅读量2.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Apache Spark Apache Hive 文章标签： Spark sql join

本文链接：https://blog.youkuaiyun.com/high2011/article/details/89892509

Apache Spark 同时被 2 个专栏收录

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Apache Hive

38 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在Spark 1.6.3中，SQL JOIN操作可能导致数据类型自动转换和精度丢失，例如BigInt与String类型关联会产生错误结果。解决办法是确保JOIN字段统一转为String类型以避免意外错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

某天，在处理数据时，发现Spark sql （版本：Spark-1.6.3 ）在进行 join 时，出现了自动截取字符和精度丢失的情况。

已经有人在 Jira 上提出需要WARN或者 Exception ，点击

举例

A 表中的 BigInt 类型和 B表中的 String 类型关联，关联出来的结果重复了，不是我们想要的结果。

表一：t_test_bigint

create table t_test_bigint (
id int comment 'id',
name string comment '名字',
age bigint  comment '年龄'
)
ROW FORMAT DELIMITED 
NULL DEFINED AS ''
;

插入数据

insert into t_test_bigint values(5,'Tom1',1234567890123456789);
insert into t_test_bigint values(6,'Tom2',12345678901234567892);
insert into t_test_bigint values(7,'Tom3',12345678901234567893);
insert into t_test_bigint values(8,'Tom4',

了解本专栏