压缩字符串字典与称重矩阵的组合优化
1. 压缩字符串字典实验结果
1.1 实验字典选择
为了评估不同方法在压缩字符串字典方面的性能,实验选取了四个具有代表性的字典:
| 字典名称 | 描述 | 条目数量 | 占用空间 |
| — | — | — | — |
| Words | ClueWeb09 数据集中出现至少 3 次的所有不同单词 | 25,609,784 个单词 | 256.36 MB |
| DNA | S. Paradoxus 中发现的 12 个核苷酸的所有子串(para 数据集) | 9,202,863 个子序列 | 114.09 MB |
| URLs | 2002 年从 WebGraph 框架中抓取的.uk 域名的 URL | 18,520,486 个 URL | 1.34 GB |
| URIs | DBpedia - en RDF 数据集中使用的所有不同 URI(不包括空白节点和文字) | 30,176,012 个 URI | 1.52 GB |
1.2 实验环境与设置
实验使用了英特尔酷睿 2 双核处理器,主频 3.16 GHz,拥有 8 GB 主内存和 6 MB 缓存,运行 Linux 内核 2:6:24 - 28。进行了定位(locate)和提取(extract)实验:
- 定位实验 :
- 成功搜索 :随机选择 10,000 个字典字符串。
- 失败搜索 :随机选择 1,000 个字符串并将其排除在索引之外。
-
超级会员免费看
订阅专栏 解锁全文
2346

被折叠的 条评论
为什么被折叠?



