优化Web访问日志的模式查询与集成特征选择
优化Web访问日志的模式查询
在处理Web访问日志时,模式查询的优化至关重要。以下将详细介绍相关的方法和技术。
首先,我们会生成等价集。例如:
- (E_{2,2} = {2, 5, 1, 4, 17, 13, 16, 31, 36})
- (E_{3,1} = {2, 3, 4, 1, 13, 19, 25})
接着,为所有等价集生成16位的位图签名:
| 等价集 | 位图签名 |
| ---- | ---- |
| (E_{1,1}) | 1000011001011111 |
| (E_{1,2}) | 0000101101100110 |
| (E_{2,1}) | 0000101101111010 |
| (E_{2,2}) | 1010000000110111 |
| (E_{3,1}) | 0010001000011110 |
最终,顺序索引以如下形式存储在数据库中:
| SID | 位图签名 |
| ---- | ---- |
| 1 | 1000011001011111, 0000101101100110 |
| 2 | 0000101101111010, 1010000000110111 |
| 3 | 0010001000011110 |
下面是使用顺序索引进行模式查询的步骤:
1. 执行模式查询时,扫描所有Web访问序列的位图签名。
2. 对每个Web访问序列,进行搜索子序列映射的测试。
3. 如果搜索子序列
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



