数据分布矫正

最新推荐文章于 2024-08-17 21:13:15 发布

原创最新推荐文章于 2024-08-17 21:13:15 发布 · 1.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

33 篇文章

订阅专栏

本文深入探讨了监督学习中域适应的问题，特别是在训练集与测试集分布不一致的情况下的解决方案。提出了三种域适应方法：目标转移(Target Shift)、条件转移(Conditional Shift)及广义目标转移(Generalized Target Shift)，并介绍了通过数据转换和重加权实现分布校正的技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

监督学习的目的就是从训练集
$D t r = {(x t r 1, y t r 1), . . ., (x t r m, y t r m)} \subseteq X \times Y$ $D^{tr} ={\lbrace\ (x_{1}^{tr}, y_{1}^{tr}),...,(x_{m}^{tr}, y_{m}^{tr})\rbrace}\subseteq{X\times Y}$
中寻找出一个合适的模型 $f$ 使它适用于测试集
$D t e = {(x t e 1, y t e 1), . . ., (x t e n, y t e n)} \subseteq X \times Y$ $D^{te} ={\lbrace\ (x_{1}^{te}, y_{1}^{te}),...,(x_{n}^{te}, y_{n}^{te})\rbrace}\subseteq{X\times Y}$
其中 $y_{i}^{te}$ 是未知的。很多情况下训练集和测试集并不是同分布，例如 $P_{XY}^{tr}\neq P_{XY}^{te}$ ，因此需要引入域适应算法来解决此类问题。

5工况标签分布图 &nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp&nbsp 5工况数据分布图

以JDA为例，进行域适应

JDA JDA+调整Y分布
工况1-5 24.45
工况1-4 16.41

目录

[toc]

Why and how to correct for target/conditional shift?
Distribution shift correction by data transformation/reweighting
Correction for target shift
Location-scale generalized target shift
Simulations

Why and how to correct for target/conditional shift?

why
假设在 $P_{X\mid Y}^{tr}\neq P_{X\mid Y}^{te}$ 和 $P^{tr}{(X})\neq P^{te}(X)$ 情况下从X预测Y
how
针对上述问题，论文提出三种域适应方法
- Target shift(TarS)
- Conditional Shift(ConS)
- Generalized target shift(GeTarS)

Target shift(TarS)
$P_{X\mid Y}^{tr}= P_{X\mid Y}^{te}$ 并且 $P^{tr}{(Y})\neq P^{te}(Y)$
Conditional Shift(ConS)
$P_{X\mid Y}^{tr}\neq P_{X\mid Y}^{te}$ 并且 $P^{tr}{(Y})= P^{te}(Y)$
Generalized target shift(GeTarS)
$P_{X\mid Y}^{tr}\neq P_{X\mid Y}^{te}$ 并且 $P^{tr}{(Y})\neq P^{te}(Y)$

Distribution shift correction by data transformation/reweighting

为了从训练集 $D^{tr}=\lbrace x_{i},y_{i}\rbrace _{i=1}^{m}$ 中寻找出回归、分类器 $f(x)$ ，在测试集上可以精准预测。文中提出两种方法：

1. Importance reweighting


2.Sample transformation and reweighting

Importance reweighting

最小测试集上的化期望损失函数

R [P t e, θ, l (x, y, θ)] = E (x, y) \sim P t e X Y [l (x, y, θ)] =

$R[P^{te} ,\theta , l(x,y,\theta)]=E_{(x,y)} \sim P_{XY}^{te}[l(x,y,\theta)]=$

E (x, y) \sim P t r X Y \cdot P t e Y / P t r Y \cdot P t e X ∣ Y / P t r X ∣ Y \cdot l (x, y, θ) d x d y

$E_{(x,y)} \sim P_{XY}^{tr} \cdot P_{Y}^{te}/P_{Y}^{tr} \cdot P_{X\mid Y}^{te}/P_{X\mid Y}^{tr}\cdot l(x,y,\theta)dxdy$

$P_{XY}^{te}$ 被包含于 $P_{XY}^{tr}$
$P_{XY}$ 分解为 $P_{Y}P_{X\mid Y}$ 而不是 $P_{X}P_{Y\mid X}$
$\theta$ 表示损失函数 $l(x,y,\theta)$ 的参数
令 $\beta^{*}(y) = P_{Y}^{te}/P_{Y}^{tr}$ ，而且， $\gamma^{*}= P_{X\mid Y}^{te}/P_{X\mid Y}^{tr}$

最终需要使得经验损失最小：

R^= \sum i = 1 m β * (y t r i) γ * (x t r i, y t r i) l (x i, y i, θ)

$\hat{R} = \sum_{i=1}^{m}\beta^{*}(y_{i}^{tr})\gamma^{*}(x_{i}^{tr},y_{i}^{tr})l(x_{i},y_{i},\theta)$

Sample transformation and reweighting

在寻找一个转换器 $\Gamma$ 使得:

X n e w = Γ (X t r, Y t r)

$X^{new}=\Gamma (X^{tr},Y^{tr})$
并且使得

PnewX∣Y=PteX∣Y $P_{X\mid Y}^{new}=P_{X\mid Y}^{te}$

测试集上的期望损失为：

R [P t e, θ, l (x, y, θ)] = E P t e X Y [l (x, y, θ)] = \int P t r Y \cdot β * (y t r i) \cdot l (x, y, θ) d x d y = E (x, y) \sim P t r Y P n e w x ∣ y [β * (y) l (x, y, θ)]

$\begin{array}{l} R[P^{te} ,\theta , l(x,y,\theta)]=E_{ P_{XY}^{te}}[l(x,y,\theta)]= \\ \int{ P_{Y}^{tr} \cdot \beta^{*}(y_{i}^{tr})\cdot l(x,y,\theta)dxdy =} \\ E_{(x,y) \sim P_{Y}^{tr}P_{x\mid y}^{new}}[\beta^{*}(y)l(x,y,\theta)] \end{array}$

$Y^{tr}$ 在转化函数 $\Gamma$ 中是一个关键，不同的 $Y$ 可能导致 $\Gamma$ 的不同

最终需要使得经验损失最小：

R^= \sum i = 1 m β * (y t r i) l (x n e w i, y t r i, θ)

$\hat{R} = \sum_{i=1}^{m}\beta^{*}(y_{i}^{tr})l(x_{i}^{new},y_{i}^{tr},\theta)$

Correction for target shift

目标是在 $P_{X\mid Y}^{tr}= P_{X\mid Y}^{te}$ 和 $P_{Y}^{tr}\neq P_{Y}^{te}$ 的情况下，寻找 $\beta^{*}(y)=P_{Y}^{te}/P_{Y}^{tr}$ ,并且有如下几个假设：

训练数据比测试数据丰富
$Y$ 只存在一种可能的分布，与 $P_{x|y}^{tr}$ 影响 $P_{X}^{te}$
$k,l$ 分别是 $X,Y$ 的核，并且是特有的

kernel mean matching

$P_{X}$ 的核均值嵌入是在再生核希尔伯特空间(RKHS)中的一个点，可以通过下式计算得到：

μ [P x] = E x \sim P X [ψ (X)]

$\mu[P_{x}] = E_{x \sim P_{X}}[\psi(X)]$
其经验估计是：

μ [P x] = 1 m \sum i = 1 m ψ (x i)

$\mu[P_{x}] = \frac{1}{m}\sum_{i=1}^{m}\psi(x_{i})$

核均值嵌入

$P_{X \mid Y}$ 的可以认为是从 $G$ 空间到 $F$ 空间的映射定义为：

U [P X] = C X Y C - 1 Y Y

$U[P_{X}]=C_{XY}C_{YY}^{-1}$

其中 $C_{XY}$ 表示互协方差， $C_{YY}$ 为自协方差，并且可以得到

μ [P X] = U [P X ∣ Y] μ [P Y]

$\mu[P_{X}] = U[P_{X \mid Y}]\mu[P_{Y}]$
经验估计为：

U^X ∣ Y = Ψ (L + λ I) - 1 Φ T

$\hat{U}_{X\mid Y} =\Psi{(L+\lambda I )}^{-1}\Phi^{T}$

为了使得 $P_{Y}^{new}=\beta (y)P_{Y}^{tr}$ ，需要在匹配 $P_{X}^{new}$ 和 $P_{X}^{te}$ 的过程中计算得出 $\beta (y)$

β * = a r g m i n | | μ [P n e w (X)] - μ [P t e (X)] | |

$\beta ^{*} = arg{min} ||\mu[P^{new}{(X)}]-\mu[P^{te}{(X)}] ||$

= U [P t r (X ∣ Y)] E Y \sim P t r (Y) [β (y) ϕ (y)] - μ [P t e (X)] | |

$=U[P^{tr}(X\mid Y)]E_{Y \sim P^{tr}(Y)}[\beta(y)\phi (y)]-\mu[P^{te}{(X)}] ||$

根据经验估计值计算上式的平方：

| | U^X ∣ Y \cdot 1 m \sum i = 1 m β i ϕ (y i) t r - 1 n ψ (x t e i) | | 2

$||\hat{U}_{X\mid Y}\cdot \frac{1}{m}\sum_{i=1}^{m}\beta_{i}\phi(y_i)^{tr}-\frac{1}{n}\psi(x_{i}^{te}) ||^{2}$

= 1 m 2 β T L (L + λ m I) - 1 K (L + λ m I) - 1 L β

$= \frac{1}{m^{2}}\beta^{T}L(L+\lambda ^{m} I)^{-1}K(L+\lambda ^{m} I)^{-1}L\beta$

- 2 m n 1 T K c (L + λ m I) - 1 L β + c o n s t

$- \frac{2}{mn}{{1}}^{T}K^{c}(L+\lambda ^{m} I)^{-1}L\beta+const$

令

β T L (L + λ m I) - 1 K (L + λ m I) - 1 L = J

$\beta^{T}L(L+\lambda ^{m} I)^{-1}K(L+\lambda ^{m} I)^{-1}L=J$

1 T K c (L + λ m I) - 1 L = M

${{1}}^{T}K^{c}(L+\lambda ^{m} I)^{-1}L=M$

问题可以等价为一个QP问题

m i n . 1 2 β T J β - m n M β

$min.\frac{1}{2}\beta^{T}J\beta-\frac{m}{n}M\beta\text{}$

$s.t.$ $\beta _{i}\in [0,B]$ 并且 $|\sum _{i=1}^{m}\beta_{i}-m|\le m\varepsilon$ ， $B$ , $\varepsilon$ 是参数

Location-scale generalized target shift

假设： $P_{Y}$ 和 $P_{X\mid Y}$ 都发生了改变，但是 $P_{X\mid Y}$ 仅仅在位置和尺度上发生了变化。

例如： $\exists$ $W(Y^{tr})=diag[w_{1}(Y^{tr}),...,w_{d}(Y^{tr})]$ ，并且 $B(Y^{tr})=[b_{1}(Y^{tr}),...,b_{d}(Y^{tr})]^{T}$

Thanks for watching

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。