本论文解决的问题
-
量化数据价值(机器学习模型训练中各个数据点的贡献)
-
避免数据价值受到其所处数据集的影响,使数据点的估值更加稳定、一致
变量假设
假设 D 表示一个在全集 Z 上的数据分布。对于监督学习问题,我们通常认为 Z = X × Y,其中 X 是特征空间的一个子集,Y 是输出,它可以是离散的或连续的。
S 是从 D 中独立同分布抽取的 k 个数据点的集合。
简写:[m]={1, …, m},k ∼ [m] 表示从 [m] 中均匀随机抽取的样本。
U 表示一个取值在 [0, 1] 上的潜在函数(potential function)或性能度量(performance metric)。在本文的背景下,认为 U 表示学习算法(learning algorithm)和评估指标(evaluation metric)。对于任何 S ⊆ Z,U(S) 表示集合 S 的价值。
Data Shapley
ϕ(z;U,B)=1m∑k=1m(m−1k−1)−1∑S⊆B\{ z}∣S∣=k−1(U(S∪{ z})−U(S)) \phi(z ; U, B)=\frac{1}{m} \sum_{k=1}^m\binom{m-1}{k-1}^{-1} \sum_{\substack{S \subseteq B \backslash\{z\} \\|S|=k-1}}(U(S \cup\{z\})-U(S)) ϕ(z;U,B)=m1k=1∑m(k−1m−1)−1S⊆B\{ z}∣S∣=k−1∑(U(S∪{ z})−U(S))
解释如下:
- ϕ(z;U,B)\phi(z ; U, B)ϕ(z;U,B) :表示数据点 zzz 在数据集 BBB 中的 data Shapley 值。
- mmm :数据集 BBB 中数据点的总数。
- UUU :势函数或性能度量,用于评估数据集的价值或模型的性能。
- SSS :数据集 BBB 的任意子集,不包含点 zzz。
- (m−1k−1)\binom{m-1}{k-1}(k−1m−1) : 是从 m−1m-1m−