DuNST详解:将Self-Training机制融入受控文本生成中

DuNST Dual Noisy Self Training for Semi-Supervised Controllable Text Generation

文章的主要工作

(1)第一个将自我训练纳入半监督可控语言生成中并提出一种新颖有效的ST方法的工作。
(2)证明 DuNST 探索了更大的潜在文本空间并扩展了泛化边界,为我们的方法提供了理论解释。
(3)对三个属性可控的生成任务进行了深入的实验,证明了 DuNST 在提高控制精度和生成文本的竞争质量方面的优越性,进一步扩展了强大的 PLM 用于 NLG 的能力。


DuNST方法

定义

x x x 为文本, y y y 为属性标签, D l = { ( x i , y i ) } D_l = \{ (x_i, y_i) \} Dl={(xi,yi)} 是一个带有配对文本及其相应标签的标记数据集, D u = { x i } D_u = \{ x_i \} Du={ xi} 是来自同一领域的无标记数据集。我们的目标是学习一个由 θ \theta θ 参数化的属性可控生成器 G = g θ ( x ∣ y ) G = g_{\theta}(x|y) G=gθ(xy)(例如,一个大型的PLM),以生成高质量的文本 x ∼ g θ ( x ∣ y ) x \sim g_{\theta}(x|y) xgθ(xy)(以自回归方式),满足给定的标签 y y y。我们还赋予我们的模型能力,通过联合学习一个文本分类器 C = q ϕ ( y ∣ x ) C = q_{\phi}(y|x) C=qϕ(yx) x ∈ D u x \in D_u xDu 生成伪属性标签。我们同时对 G G G C C C 用一个共享的PLM作为双重过程来建模和优化(见第3.2节)。

在DuNST的训练过程中(见第3.3节),由 C C C 预测的伪标签有助于覆盖更多未见样本,从而扩展了学习的分布边界,而由 G G G 生成的噪声伪文本有助于扰动先前学习的空间,进一步提高泛化。

双重生成与分类

我们联合学习文本的条件分布 g θ ( x ∣ y ) g_{\theta}(x|y) gθ(xy) 和标签 q ϕ ( y ∣ x ) q_{\phi}(y|x) qϕ(yx) 来匹配真实的分布。然而,我们并不直接使用传统的交叉熵损失函数来优化它们,而是采用变分方法。具体来说,我们引入了一个潜在变量 z z z 来捕获底层语义,因此我们有 q ( x ∣ y ) = ∫ q ( x , z ∣ y ) d z q(x|y) = \int q(x, z|y)dz q(xy)=q(x,zy)dz。我们可以通过分解 q ( x , z ∣ y ) = q ( x ∣ z , y ) ∗ q ( z ∣ y ) q(x, z|y) = q(x|z, y) * q(z|y) q(x,zy)=q(xz,y)q(zy) 来采样生成文本 x x x。为了实现这个目标,我们将生成损失最小化为:

L g = − E p ψ ( z ∣ x , y ) [ log ⁡ q θ ( x ∣ z , y ) ] + K L [ p ψ ( z ∣ x , y ) ∣ ∣ q θ ( z ∣ y ) ] , (1) L_g = -\mathbb{E}_{p_{\psi}(z|x,y)}[\log q_{\theta}(x|z, y)] + KL[p_{\psi}(z|x, y)||q_{\theta}(z|y)],\tag{1} Lg=Epψ(zx,y)[logqθ(xz,y)]+KL[pψ(zx,y)∣∣qθ(zy)],(1)

其中 p ψ ( z ∣ x , y ) p_{\psi}(z|x, y) pψ(zx,y)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青云遮夜雨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值