19、压缩字符串字典与称重矩阵的组合优化

云朵来信

于 2025-09-13 11:13:12 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：实验算法前沿探秘文章标签：压缩字符串字典 Front-Coding XBW

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/153606286

实验算法前沿探秘专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

压缩字符串字典与称重矩阵的组合优化

1. 压缩字符串字典实验结果

1.1 实验字典选择

为了评估不同方法在压缩字符串字典方面的性能，实验选取了四个具有代表性的字典：
| 字典名称 | 描述 | 条目数量 | 占用空间 |
| — | — | — | — |
| Words | ClueWeb09 数据集中出现至少 3 次的所有不同单词 | 25,609,784 个单词 | 256.36 MB |
| DNA | S. Paradoxus 中发现的 12 个核苷酸的所有子串（para 数据集） | 9,202,863 个子序列 | 114.09 MB |
| URLs | 2002 年从 WebGraph 框架中抓取的.uk 域名的 URL | 18,520,486 个 URL | 1.34 GB |
| URIs | DBpedia - en RDF 数据集中使用的所有不同 URI（不包括空白节点和文字） | 30,176,012 个 URI | 1.52 GB |

1.2 实验环境与设置

实验使用了英特尔酷睿 2 双核处理器，主频 3.16 GHz，拥有 8 GB 主内存和 6 MB 缓存，运行 Linux 内核 2:6:24 - 28。进行了定位（locate）和提取（extract）实验：
- 定位实验 ：
- 成功搜索 ：随机选择 10,000 个字典字符串。
- 失败搜索 ：随机选择 1,000 个字符串并将其排除在索引之外。
-

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。