机器学习中的公平性:合成数据生成与模型优化
1. 公平合成数据集
1.1 GAN 基公平合成数据生成器
在机器学习中,生成公平且无偏的合成数据至关重要。基于生成对抗网络(GAN)的方法可以利用有向无环图(DAG)来生成公平的合成数据。以 Debiasing Causal Fairness (DECAF) 框架为例,它基于 GAN 探索数据合成的因果结构原理。
DECAF 框架使用多个生成器(每个生成器对应一个变量)来学习数据中的因果条件。数据生成过程(DGP)允许根据变量的因果父节点,通过生成器的输入层对变量进行重新设计和再生。该框架可以从具有固有偏差的现实世界数据集(如少数群体代表性不足的数据集)以及人为引入偏差的数据集中去除偏差。此外,通过将标准判别器替换为差分隐私判别器,DECAF 还能在生成私有合成数据的过程中保护机密信息。
1.2 DECAF 框架的组成部分
DECAF 框架的优化过程通过在判别器和生成器网络中添加正则化损失,并使用梯度下降法进行迭代优化,保证与标准 GAN 相同的收敛标准。该框架包含以下几个方面:
- 满足马尔可夫兼容性的数据生成分布函数 :对于已知的 DAG (G),若每个节点代表概率分布 (P) 中的一个变量,且 DAG 中的每个变量 X 与其所有非后代节点相互独立,则称其具有马尔可夫兼容性。
- 生成器 G 和判别器 D 具备足够的容量 。
- 每次训练迭代都能成功优化给定的 DAG G 并相应更新 。
- 最大化判别器损失 </
超级会员免费看
订阅专栏 解锁全文
1115

被折叠的 条评论
为什么被折叠?



