UDF非预期返回null

最新推荐文章于 2024-08-06 06:13:37 发布

原创最新推荐文章于 2024-08-06 06:13:37 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

bigdata 专栏收录该内容

28 篇文章

订阅专栏

本文探讨了在Spark中使用UDF函数计算粉丝互动率时遇到的null值问题，详细介绍了如何通过更改函数输入类型从Int到java.lang.Long以适配null值，以及在null情况下使用when/otherwise进行特殊处理的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

今天写了一个UDF函数，算粉丝互动率的参数

def getInteractionProportion(platform_type:String, follower_count:Long,media_count:Long,interaction_sum:Long):Float={
1.2f
}

当有视频数的时候,interaction_sum除以视频数，否者除以粉丝数；
当写成上述的时候，仍然发现部分数据返回null

资料

参考资料：https://blog.youkuaiyun.com/xuejianbest/article/details/81666246
参考资料：https://stackoverrun.com/cn/q/12634034
参考资料：https://stackoverflow.com/questions/42791912/how-to-deal-with-spark-udf-input-output-of-primitive-nullable-type

最后决定，将函数改写为
传入对象java.lang.Long

def getInteractionProportion(platform_type:String, follower_count:java.lang.Long,media_count:java.lang.Long,interaction_sum:java.lang.Long):java.lang.Float={
//TUDO :业务代码
1.2f
}

参考的思路：

问题是null不是斯卡拉诠释一个有效的值（这是后盾值），而这是一个字符串的有效值。 Int等同于java int原语并且必须有一个值。这意味着当值为空时udf不能被调用，因此null仍然存在。

有解决这个方法有两种：

更改函数接受java.lang.Integer中（这是一个对象，可以为null）
如果你不能改变的功能，你可以使用when/otherwise在null的情况下做一些特殊的事情。例如，当（COL（ “整数关口”）。参考isNull，someValue中）。否则（原始呼叫）
这方面的一个很好的解释可以发现