混合 XML 系统合成数据生成与发布/订阅消息系统基准测试
在数据处理和通信领域,合成数据生成和消息系统基准测试是两个重要的研究方向。合成数据可以模拟真实数据的特性,用于测试和评估系统性能;而消息系统基准测试则有助于了解消息系统在不同场景下的性能表现。下面将详细介绍这两方面的内容。
合成 XML 数据生成
为了实验性地研究混合 XML 存储的特性,需要找到相关的 XML 数据集。可以通过数据生成器,基于现有数据集,采用四种不同的方法来生成合成数据集。
- 相关定义
- Path(Q, D) :在数据集 D 上执行查询 Q 时访问的所有子路径的集合。
- 随机数据集(Random dataset) :给定查询 Q 和数据集 D 的随机数据集 R 是一个骨架数据集,对于 Path(Q, D) 中的所有路径,R 和 D 中存储在该路径的数据大小相似。通过向条目中填充随机数据,插入具有给定分布的新元素,使合成数据集的总大小与原始数据集相似。例如:
<element name="x_payload">
<simpleType>
<restriction base="string">
<tox-string maxLength="36656" minLength="1100"
tox-distribution="entryfirstpayload"/>
&