Flink SQL踩坑记录-IF函数

Functi_on

于 2025-02-06 21:06:50 发布

阅读量1.9k

点赞数 43

CC 4.0 BY-SA版权

文章标签： flink sql 大数据

本文链接：https://blog.youkuaiyun.com/Functi_on/article/details/145480785

问题背景

业务需要将部分离线数仓看板改实时，选择Flink SQL脚本实现，改写Hive SQL过程中有两个关于IF函数的报错点。

问题代码一

select count(distinct if(order_cnt>0,uid,null)) from table

由于是从hive sql直接粘过来开始改，开始保留了这部分，报错信息为

org.apache.calcite.sql.validate.SqlValidatorException: Illegal use of ‘NULL’ at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at

原因

Hive中语法较为宽松，NULL会被隐式处理，IF()函数返回值的类型由两个分支自定推导，自动将NULL处理为order_cnt同类型的NULL，这样写不会报错。
Flink SQL 使用 Apache Calcite 作为 SQL 解析和验证引擎，Calcite 对表达式中的 NULL 类型推断非常严格，尤其关注所有分支的类型一致性。

Flink IF 函数的类型推导

IF(condition, expr1, expr2) 的三个参数必须满足以下条件： condition 必须是布尔类型。
expr1 和 expr2 必须具有完全相同的数据类型（包括 NULL 的类型）。
如果 expr2 是裸的 NULL（即未显式指定类型的 NULL），Calcite 无法自动推断其类型，会认为它是一个“未知类型”的 NULL，导致与 expr1 类型冲突。

解决办法

#Calcite 对 CASE WHEN 的类型推导更智能，更容易正确处理 NULL 的类型匹配
COUNT(DISTINCT CASE WHEN order_cnt > 0 THEN uid ELSE NULL END)
#强转 显式声明
COUNT(DISTINCT IF(order_cnt > 0, uid, CAST(NULL AS STRING)))

问题代码二

select  
    if(grouping(category_name1) = 1 ,'ALL',category_name1) as category_name1,
    if(grouping(category_name2) = 1 ,'ALL',category_name2) as category_name2,
    if(grouping(category_name3) = 1 ,'ALL',category_name3) as category_name3,
    if(grouping(category_id1) = 1 ,'ALL',category_id1) as category_id1,
    if(grouping(category_id2) = 1 ,'ALL',category_id2) as category_id2,
    if(grouping(category_id3) = 1 ,'ALL',category_id3) as category_id3,
    sum(indicator) as indicator_cnt,
from
    table 
where category_name1 is not null and category_name2 is not null and category_name3 is not null 
group by
grouping sets ((),--整体汇总
            (category_name1,category_id1), --类目1汇总
            (category_name1,category_name2,category_id1,category_id2), --类目2汇总
            (category_name1,category_name2,category_name3,category_id1,category_id2,category_id3),--类目3汇总 即明细
        )

看起来没什么问题，但是Sink输出的category_name1等不定长度字段长度都被截取为3不符合预期，单独验证上游sink结果正常后定位到此处。

原因

前面提到的Calcite严格要求 IF表达式的所有分支类型必须一致，“ALL” 字符串，默认推导为 CHAR(3)，category_name1原有类型为STRING是可变长度类型，系统会选择 CHAR(3) 作为共同类型。
Calcite 的类型推导遵循优先级规则：CHAR(n) > VARCHAR(n) > STRING
当遇到类型冲突时低优先级类型（如 VARCHAR）会被强制转换为高优先级类型（如 CHAR）

解决办法

-- 强制 'ALL' 为 VARCHAR
IF(
  grouping(category_name1) = 1, 
  CAST('ALL' AS VARCHAR(3)),
  category_name1
) AS category_name1

扩展

Calcite 的严格类型推导规则与Hive中差异,提前记录避免踩坑

一、类型一致性问题

条件表达式（IF/CASE）的分支类型不一致

Hive：允许分支类型不同（例如数字和字符串），隐式统一为 STRING。
Flink (Calcite)：强制要求所有分支类型严格一致。

-- Hive 正常，Flink 报错 ❌
SELECT IF(condition, 123, 'abc') 

-- 修正 ✅
SELECT IF(condition, CAST(123 AS STRING), 'abc')

空字符串与 NULL 的差异

Hive：‘’（空字符串）和 NULL 可能被隐式转换。
Flink：严格区分 VARCHAR 空字符串与 NULL，需显式处理。

-- Hive 允许，Flink 报类型不匹配 ❌
SELECT IF(condition, '', NULL) 

-- 修正 ✅
SELECT IF(condition, CAST('' AS VARCHAR), CAST(NULL AS VARCHAR))

二、数值类型的隐式转换

整数与浮点数的混合运算
Hive：自动将整数提升为浮点数（如 INT → DOUBLE）。
Flink：需显式转换否则可能报错。

-- Hive 返回 DOUBLE，Flink 报错 ❌ （若无显式转换）
SELECT 1 + 2.5

-- 修正 ✅
SELECT CAST(1 AS DOUBLE) + 2.5

Bigint与Integer的溢出风险

Hive：可能隐式转换（如 INT → BIGINT）。
Flink：严格检查类型与精度，直接拒绝可能导致溢出的操作。

-- Hive 允许，Flink 拒绝（例如 Integer.MAX_VALUE + 1）
SELECT 2147483647 + 1 

-- 修正 ✅（显式转为 BIGINT）
SELECT CAST(2147483647 AS BIGINT) + 1

三、字符串类型和定长类型

CHAR(n) 与 VARCHAR(n) 的隐式填充

Hive：忽略定长类型差异，自动处理存储。
Flink：CHAR(n) 类型会用空格填充到定长，可能导致比较和连接结果与 Hive 不同。

-- Hive 中返回 TRUE，Flink 中返回 FALSE ❗
SELECT CAST('abc' AS CHAR(5)) = 'abc'

-- Hive 结果: 'abc  '   （填充空格）
-- Flink 比较时会保留填充符，可能不匹配

四、日期和时间的处理

字符串与日期类型的隐式转换

Hive：支持 ‘2023-10-01’ 直接比较 DATE 类型。
Flink：需显式转换字符串为日期类型。

-- Hive 正常，Flink 报错 ❌
SELECT DATE '2023-10-01' = '2023-10-01'

-- 修正 ✅
SELECT DATE '2023-10-01' = TO_DATE('2023-10-01')

时间戳精度差异

Hive：默认时间戳精度为秒或毫秒。
Flink：时间戳精度为 TIMESTAMP(3)（毫秒），直接使用纳秒可能导致截断或报错。

-- Hive 允许，Flink 可能警告或截断 ❗
SELECT CAST('2023-10-01 12:00:00.123456789' AS TIMESTAMP)

五、复杂类型的处理差异

MAP 或 ARRAY 类型的构造

Hive：允许混合不同类型的元素（如 ARRAY(1, ‘a’)）。
Flink：要求所有元素类型必须严格一致。

-- Hive 返回 ARRAY<STRING>，Flink 报错 ❌
SELECT ARRAY(1, 'a')

-- 修正 ✅
SELECT ARRAY(CAST(1 AS STRING), 'a')

STRUCT 类型的字段顺序

Hive：可通过别名访问字段，忽略结构体顺序。
Flink：通过索引定位字段，若结构体字段顺序改变可能导致错误。

-- 假设定义 STRUCT<age INT, name STRING>
-- Hive 允许，Flink 可能返回错误值 ❌
SELECT named_struct('name', 'Alice', 'age', 25).age

六、其他易错点
10. 函数参数类型严格性

Hive：允许 CONCAT(1, ‘a’)（自动转字符串）。
Flink：要求所有参数类型一致。

-- Hive 返回 '1a'，Flink 报错 ❌
SELECT CONCAT(1, 'a')

-- 修正 ✅
SELECT CONCAT(CAST(1 AS STRING), 'a')

ORDER BY 中的混合类型

Hive：允许不同字段类型参与排序。
Flink：若排序字段类型不一致可能报错。

-- Hive 正常，Flink 可能拒绝 ❌
SELECT id, name FROM table ORDER BY id, LENGTH(name)

总结

显式指定类型：
使用 CAST 强制转换，尤其是对 NULL、字面量。
优先使用标准 SQL：
用 CASE WHEN 替代 IF()，用 TO_DATE() 替代隐式转换。
统一分支类型：
确保 IF/CASE 每个分支、集合元素、函数参数类型一致。
检查时间精度：
明确 TIMESTAMP 精度，避免隐式截断。
测试边缘场景：
对数值溢出、空字符串、异构集合进行严格测试。