55、数据缩减技术准确性分析与隐私保护的数据交换方法

数据缩减技术准确性分析与隐私保护的数据交换方法

1. 数据集测试

在数据处理和分析中,我们对合成数据集和典型仓库数据集进行了测试。合成数据集主要有以下几种类型:
- 随机数据集 :包含完全随机的值。
- Zipf 数据集 :这种分布在许多数据库的真实数据分布中较为典型,其偏斜的 Zipf 分布包含高而细的峰值,用固定网格技术很难近似,但可作为离群值提取。
- 聚类数据集 :有 n 个遵循正态分布的聚类。

典型仓库数据集则来自多个数据仓库,例如销售数据集(产品×天数×商店 = 收入:60 × 184 × 20)以及汇总操作(如从天数汇总到周数)的结果。

数据集类型 分布 示例
合成数据集 随机、Zipf、聚类 随机值、Zipf 分布、正态分布聚类
典型仓库数据集 多种 销售数据集、汇总操作结果

2. 实验方法

2.1 误差度量

使用了两种误差度量方法:
- 点查询误差 :计算公式为 $perrores

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值