聚类相关问题解析
1. 按用户代理、IP和会话ID对唯一访客进行聚类
给定网站访问数据,包含会话ID(session_id)、IP、用户代理(user_agent),可能还有时间戳(timestamp),要将这些会话聚类为唯一访客。
- 数据特点
- 会话ID :每个新访客都会获得一个会话ID,且不会过期。但如果用户不接受cookie、清除cookie、更换浏览器或设备,就无法再被识别。
- IP :不同用户可能共享IP,比如在免费WiFi咖啡馆,或者ISP重新分配IP。用户通常至少有两个IP,如家庭和工作IP。
- 用户代理 :表示浏览器和操作系统版本,可用于区分设备。例如,用户可能同时使用手机和笔记本电脑,但不太可能同时使用Windows和苹果笔记本电脑。同一个会话ID不太可能有多个用户代理。
- 聚类思路
- cwharland的方法
- 定义“稳定用户”,创建一个用户ID(uid),它是IP和一些用户代理信息的哈希值,伪代码如下:
uid = MD5Hash(ip + UA.device + UA.model)
- 根据观察到的用户使用启发式规则,将这些ID标记为“稳定”或“不稳定”。例如,可以根据给定时间窗口内的访问次数阈值、cookie持续时间、网站上的某些最终操作等。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



