论文阅读 A Distributional Framework for Data Valuation

本论文解决的问题

  1. 量化数据价值(机器学习模型训练中各个数据点的贡献)

  2. 避免数据价值受到其所处数据集的影响,使数据点的估值更加稳定、一致

变量假设

假设 D 表示一个在全集 Z 上的数据分布。对于监督学习问题,我们通常认为 Z = X × Y,其中 X 是特征空间的一个子集,Y 是输出,它可以是离散的或连续的。

S 是从 D 中独立同分布抽取的 k 个数据点的集合。

简写:[m]={1, …, m},k ∼ [m] 表示从 [m] 中均匀随机抽取的样本。

U 表示一个取值在 [0, 1] 上的潜在函数(potential function)或性能度量(performance metric)。在本文的背景下,认为 U 表示学习算法(learning algorithm)和评估指标(evaluation metric)。对于任何 S ⊆ Z,U(S) 表示集合 S 的价值。

Data Shapley

ϕ(z;U,B)=1m∑k=1m(m−1k−1)−1∑S⊆B\{ z}∣S∣=k−1(U(S∪{ z})−U(S)) \phi(z ; U, B)=\frac{1}{m} \sum_{k=1}^m\binom{m-1}{k-1}^{-1} \sum_{\substack{S \subseteq B \backslash\{z\} \\|S|=k-1}}(U(S \cup\{z\})-U(S)) ϕ(z;U,B)=m1k=1m(k1m1)1SB\{ z}S=k1(U(S{ z})U(S))

解释如下:

  • ϕ(z;U,B)\phi(z ; U, B)ϕ(z;U,B) :表示数据点 zzz 在数据集 BBB 中的 data Shapley 值。
  • mmm :数据集 BBB 中数据点的总数。
  • UUU :势函数或性能度量,用于评估数据集的价值或模型的性能。
  • SSS :数据集 BBB 的任意子集,不包含点 zzz
  • (m−1k−1)\binom{m-1}{k-1}(k1m1) : 是从 m−1m-1m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值