重复文本数据集的压缩索引与大数据计算机架构
重复文本数据集的压缩索引
在处理重复文本数据集时,压缩索引技术至关重要。以下是一些相关的技术和方法:
- 后缀树和后缀数组 :如Abeliuk等人提出的实用压缩后缀树,Grossi和Vitter的压缩后缀数组和后缀树,可用于文本索引和字符串匹配。
- 基于语法的压缩 :Claude和Navarro研究了自索引的基于语法的压缩以及改进的基于语法的压缩索引。
- 混合索引 :Ferrada等人提出了用于重复数据集的混合索引。
- 其他索引结构 :还有如ESP - 索引、FM - 索引的对齐等多种索引结构被研究和应用。
部分索引技术举例
| 索引技术 | 提出者 | 特点 |
|---|---|---|
| 实用压缩后缀树 | Abeliuk A, Cánovas R, Navarro G | 可有效处理文本数据,提高索引效率 |
| 压缩后缀数组和后缀树 | Grossi R, Vitter JS | 应用于文本索引和字符串匹配,有广泛应用场景 |
| 自索引的基于语法的压缩 |
压缩索引与大数据架构融合
超级会员免费看
订阅专栏 解锁全文
954

被折叠的 条评论
为什么被折叠?



