- 博客(4)
- 收藏
- 关注
原创 hive优化之transform
这套模版可以让你不用关心输入输出的处理。专心处理业务逻辑即可。abtest_retain_di_agg为业务逻辑。python2 的模版。
2025-02-13 15:30:12
138
原创 利用bitmap实现uv指标多维度自由聚合实时计算-flink+starrocks
此需求对数据准确性要求较高。避免本身有较大误差的技术方案。如布隆过滤器,较大几率的hash碰撞等。但是目前可以接受flink的至少一次语义。以后力达精准一次。
2025-02-13 15:08:56
2085
原创 bitmap解决uv计算思想
RoaringBitmap的原理并不复杂,但是实现还是挺复杂的。这里就简单介绍一下算法思想。其主要思想是在存储和查询数值的时候。将目标也就是32位整数划分为高16位和低16位,取高16位值进行计算,计算出的结果代表应该存储的桶(Container)的编号,然后再将这个数的低16位值存放在相应的Container中。
2025-02-13 15:05:27
1326
原创 hive udaf 输入输出处理参考手册
主要使用到的是Inspector的各种子类,第一大子类就是ObjectInspector,这个子类也是接口,我们用不到。我们用到的是ObjectInspector 的各种子类。ObjectInspector有五个子类PRIMITIVE,LIST,MAP,STRUCT,UNION;以我的经验,没用到第五个。PrimitiveObjectInspector描述器,可以用于描述各种基本类型。
2024-12-06 17:51:56
1889
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人