
算法
文章平均质量分 77
liuhongxingrs
这个作者很懒,什么都没留下…
展开
-
路径模式挖掘之最大前驱路径(MFP或者MFR)
一. 问题描述: 在网络环境下,用户对链接的访问可能出现前进或者后退的情况,不会一层不变按照固定好的站点结构走下去, 具体的说在一个用户访问的session中,用户有目的的完成一件任务需要经过1,2,3,4步,但是在实际过程中可能 出现过重复比如进行1,2,3,2,3,4的操作来进行,目的就是还原用户的真实的路径信息,为以后模式的发现提供 更加清洁的数据 二原创 2010-05-16 18:47:00 · 1777 阅读 · 0 评论 -
hive的multi-distinct可能带来性能恶化
目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session原创 2012-01-18 09:27:41 · 4945 阅读 · 0 评论