写了一个hive的UDF函数 rownum,用于记录行号,后发现一个问题,就是rownum有重复。
原因在于产生的多个map都会调用rownum,解决的方法要求你的hive sql中必须有sort by,不过这也意味着数据是在单内机器上排序。
本文探讨了Hive中自定义UDF函数rownum的使用方法及其潜在问题。作者发现当不使用sort by时,该函数会在不同的Map任务中重复计数,导致结果错误。为解决此问题,文章建议在查询中加入sort by来确保数据在单台机器上进行排序。
写了一个hive的UDF函数 rownum,用于记录行号,后发现一个问题,就是rownum有重复。
原因在于产生的多个map都会调用rownum,解决的方法要求你的hive sql中必须有sort by,不过这也意味着数据是在单内机器上排序。

被折叠的 条评论
为什么被折叠?