基于全局局部事件对齐的序列比较研究
在网络使用挖掘领域,对访客浏览数据进行聚类分析以发现隐藏模式是一项重要任务。本文主要介绍了一种新的序列相似性度量方法,通过结合全局和局部对齐技术,在网站访客聚类实验中展现出了优于其他相关技术的性能。
1. 不同度量方法的特点
在序列比较中,动态时间规整(DTW)和混合度量(Hybrid)是常用的方法,但它们存在一些局限性。DTW通过灵活变换最小化序列间的距离,能检测形状相似的时间序列。然而,当序列中存在相同连续元素合并时,它会将重复元素视为一个页面,忽略了访客多次访问同一页面的行为差异。例如,在处理包含重复网页的会话时,DTW可能会“跳过”这些重复页面,而不是挖掘访客的行为模式。
混合度量在某些情况下也存在不足。对于具有公共子序列但长度不同的序列,如Class 1和Class 2的序列,混合度量容易出现错误分类。
为了解决这些问题,本文提出了一种组合度量方法,它将全局和局部对齐技术进行了平等结合,充分考虑了序列中的重复元素和长度差异,更适合用于网络使用挖掘。
2. 实验设置
为了评估组合度量方法的性能,研究人员进行了一系列实验,包括合成数据实验和真实数据实验。
2.1 合成数据实验
研究人员随机生成了10个合成数据集,每个数据集包含超过500个会话序列(平均约520个),并将这些序列分为三个定义好的类:
- Class 1 :约170个长度在[20 - 22]之间的序列,共享一个公共子序列,如ABCDU3YU31DQ6Q4FO2JGHW等。
- Class 2 <
超级会员免费看
订阅专栏 解锁全文
2016

被折叠的 条评论
为什么被折叠?



