hive统计网站指标总结

最新推荐文章于 2022-10-10 16:39:13 发布

原创

最新推荐文章于 2022-10-10 16:39:13 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

本文总结了在Hive中处理数据倾斜、优化SQL、预处理数据、生成唯一主键及进行页面访问深度计算的方法。介绍了使用MAPJOIN提高效率、数据采样、设置'hive.groupby.skewindata'参数、使用LATERAL VIEW与explode操作，以及Java正则表达式在处理复杂维度统计中的应用。此外，还探讨了流量来源分类和Hive排序的注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于数据倾斜
我们分组统计，结果分组字段分布很不均匀，大的key造成所在机器内存不足，长时间处理不完，导致任务不能结束
1.MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，效率也会高很多
mapjion虽然省去小表的磁盘读写开销，join操作的匹配命中率还是很低。
我们有个类似的例子：
有一个小表由，起始ip地址，结束ip地址，地域code组成，我们要根据访问的IP地址取地域code，我们 1.将80万的记录按起始iP排序，并保存文件到hdfs.2.写udf将文件读入内存，通过二分法查找匹配，不需要产生join后的笛卡尔积，速度提高了很多。
2.数据采样
3.优化SQL，缩小小表记录,设定 hive.groupby.skewindata=true
4.预处理，提前统计结果，写入hdfs

sqoop 导出数据到mysql
sqoop效率不错，但是导出hive表时，一次只能导出一个分区文件，hive提供的dboutput导入数据是一条数据建立一次连接,我们改造了这个类，做了批量预处理10000条建立一次数据库连接

hive表的唯一主键
大数据理论上是不能有主键的，但是有些情况下，需要主键来标识唯一的记录
udf生成主键，一般在数据导入hive的一次全数据扫描过程中进行
键值由：ip+日期+序列数+进程id组成

基于session的页面访问深度的计算
LATERAL VIEW explode
页面访问深度指网站的某个指定页面，一个会话在第几次访问时到达该页面
1。按session分组，按utctime排序，写一个udaf返回（key:序列号，value:主键）的map
2. lateral view explode 将map行转列，在与大表做主键关联

Java正则表达式
1.Java正则比匹配group(1),只能按序号取值，不能按参数取值
2.在指标按 0 操作系统; 1:浏览器; 2:设备等维度统计的时候，正则表达式很复杂，我们找了一套开源的正则匹配可以带参数，同样需要借助udf返回匹