XML数据库与键值存储:技术解析与应用
1. XML数据库系统
在处理XML数据时,有两个主要的开源系统值得关注,分别是eXistDB和BaseX。
1.1 eXistDB
eXistDB是一个基于Java的开源XML数据库,其相关资源如下:
- eXistDB官网:http://exist-db.org/
- 文档页面:http://exist-db.org/exist/apps/doc/
- GitHub仓库:https://github.com/eXist-db/exist
eXistDB内部使用XML文档的树状表示,并采用编号方案将树虚拟扩展为完整树,并非所有节点ID都对应实际节点,这样可为树的扩展留出空间。系统查找表将节点ID映射到物理地址。同时,eXistDB通过多种索引结构支持搜索功能,具体如下:
| 索引类型 | 描述 |
| ---- | ---- |
| 结构索引 | 将集合内的元素和属性名称(更准确地说是其内部限定名称)映射到文档ID和节点ID,用于XPath查询中查找元素或属性名称。 |
| 全文索引 | 使用Apache Lucene,默认在空格和标签处分割文本,可定义在单个元素、属性名称或整个路径上。 |
| n-gram索引 | 对文本数据的n-gram进行索引,将数据字符串分割为重叠的n(默认3)个字符序列,支持高效的子字符串搜索。 |
| 空间索引 | 实验性索引,支持对地理标记语言(GML)描述的几何图形进行搜索。 |
| 范围索引 | 根据存储值的数据类型对文本节点和属性进行索引,提高比较操作的效率,同样基于Apache Lucen
超级会员免费看
订阅专栏 解锁全文

168万+

被折叠的 条评论
为什么被折叠?



