自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 hive优化之transform

这套模版可以让你不用关心输入输出的处理。专心处理业务逻辑即可。abtest_retain_di_agg为业务逻辑。python2 的模版。

2025-02-13 15:30:12 138

原创 利用bitmap实现uv指标多维度自由聚合实时计算-flink+starrocks

此需求对数据准确性要求较高。避免本身有较大误差的技术方案。如布隆过滤器,较大几率的hash碰撞等。但是目前可以接受flink的至少一次语义。以后力达精准一次。

2025-02-13 15:08:56 2085

原创 bitmap解决uv计算思想

RoaringBitmap的原理并不复杂,但是实现还是挺复杂的。这里就简单介绍一下算法思想。其主要思想是在存储和查询数值的时候。将目标也就是32位整数划分为高16位和低16位,取高16位值进行计算,计算出的结果代表应该存储的桶(Container)的编号,然后再将这个数的低16位值存放在相应的Container中。

2025-02-13 15:05:27 1326

原创 hive udaf 输入输出处理参考手册

主要使用到的是Inspector的各种子类,第一大子类就是ObjectInspector,这个子类也是接口,我们用不到。我们用到的是ObjectInspector 的各种子类。ObjectInspector有五个子类PRIMITIVE,LIST,MAP,STRUCT,UNION;以我的经验,没用到第五个。PrimitiveObjectInspector描述器,可以用于描述各种基本类型。

2024-12-06 17:51:56 1889

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除