问题
某天,在处理数据时,发现Spark sql (版本:Spark-1.6.3 )在进行 join 时,出现了自动截取字符和精度丢失的情况。
已经有人在 Jira 上提出需要WARN或者 Exception ,点击
举例
A 表中的 BigInt 类型和 B表中的 String 类型关联,关联出来的结果重复了,不是我们想要的结果。
表一:t_test_bigint
create table t_test_bigint (
id int comment 'id',
name string comment '名字',
age bigint comment '年龄'
)
ROW FORMAT DELIMITED
NULL DEFINED AS ''
;
插入数据
insert into t_test_bigint values(5,'Tom1',1234567890123456789);
insert into t_test_bigint values(6,'Tom2',12345678901234567892);
insert into t_test_bigint values(7,'Tom3',12345678901234567893);
insert into t_test_bigint values(8,'Tom4',