数据缩减技术准确性分析与隐私保护的数据交换方法
1. 数据集测试
在数据处理和分析中,我们对合成数据集和典型仓库数据集进行了测试。合成数据集主要有以下几种类型:
- 随机数据集 :包含完全随机的值。
- Zipf 数据集 :这种分布在许多数据库的真实数据分布中较为典型,其偏斜的 Zipf 分布包含高而细的峰值,用固定网格技术很难近似,但可作为离群值提取。
- 聚类数据集 :有 n 个遵循正态分布的聚类。
典型仓库数据集则来自多个数据仓库,例如销售数据集(产品×天数×商店 = 收入:60 × 184 × 20)以及汇总操作(如从天数汇总到周数)的结果。
| 数据集类型 | 分布 | 示例 |
|---|---|---|
| 合成数据集 | 随机、Zipf、聚类 | 随机值、Zipf 分布、正态分布聚类 |
| 典型仓库数据集 | 多种 | 销售数据集、汇总操作结果 |
2. 实验方法
2.1 误差度量
使用了两种误差度量方法:
- 点查询误差 :计算公式为 $perrores
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



