DuNST Dual Noisy Self Training for Semi-Supervised Controllable Text Generation
文章的主要工作
(1)第一个将自我训练纳入半监督可控语言生成中并提出一种新颖有效的ST方法的工作。
(2)证明 DuNST 探索了更大的潜在文本空间并扩展了泛化边界,为我们的方法提供了理论解释。
(3)对三个属性可控的生成任务进行了深入的实验,证明了 DuNST 在提高控制精度和生成文本的竞争质量方面的优越性,进一步扩展了强大的 PLM 用于 NLG 的能力。
DuNST方法
定义
让 x x x 为文本, y y y 为属性标签, D l = { ( x i , y i ) } D_l = \{ (x_i, y_i) \} Dl={(xi,yi)} 是一个带有配对文本及其相应标签的标记数据集, D u = { x i } D_u = \{ x_i \} Du={ xi} 是来自同一领域的无标记数据集。我们的目标是学习一个由 θ \theta θ 参数化的属性可控生成器 G = g θ ( x ∣ y ) G = g_{\theta}(x|y) G=gθ(x∣y)(例如,一个大型的PLM),以生成高质量的文本 x ∼ g θ ( x ∣ y ) x \sim g_{\theta}(x|y) x∼gθ(x∣y)(以自回归方式),满足给定的标签 y y y。我们还赋予我们的模型能力,通过联合学习一个文本分类器 C = q ϕ ( y ∣ x ) C = q_{\phi}(y|x) C=qϕ(y∣x) 为 x ∈ D u x \in D_u x∈Du 生成伪属性标签。我们同时对 G G G 和 C C C 用一个共享的PLM作为双重过程来建模和优化(见第3.2节)。
在DuNST的训练过程中(见第3.3节),由 C C C 预测的伪标签有助于覆盖更多未见样本,从而扩展了学习的分布边界,而由 G G G 生成的噪声伪文本有助于扰动先前学习的空间,进一步提高泛化。
双重生成与分类
我们联合学习文本的条件分布 g θ ( x ∣ y ) g_{\theta}(x|y) gθ(x∣y) 和标签 q ϕ ( y ∣ x ) q_{\phi}(y|x) qϕ(y∣x) 来匹配真实的分布。然而,我们并不直接使用传统的交叉熵损失函数来优化它们,而是采用变分方法。具体来说,我们引入了一个潜在变量 z z z 来捕获底层语义,因此我们有 q ( x ∣ y ) = ∫ q ( x , z ∣ y ) d z q(x|y) = \int q(x, z|y)dz q(x∣y)=∫q(x,z∣y)dz。我们可以通过分解 q ( x , z ∣ y ) = q ( x ∣ z , y ) ∗ q ( z ∣ y ) q(x, z|y) = q(x|z, y) * q(z|y) q(x,z∣y)=q(x∣z,y)∗q(z∣y) 来采样生成文本 x x x。为了实现这个目标,我们将生成损失最小化为:
L g = − E p ψ ( z ∣ x , y ) [ log q θ ( x ∣ z , y ) ] + K L [ p ψ ( z ∣ x , y ) ∣ ∣ q θ ( z ∣ y ) ] , (1) L_g = -\mathbb{E}_{p_{\psi}(z|x,y)}[\log q_{\theta}(x|z, y)] + KL[p_{\psi}(z|x, y)||q_{\theta}(z|y)],\tag{1} Lg=−Epψ(z∣x,y)[logqθ(x∣z,y)]+KL[pψ(z∣x,y)∣∣qθ(z∣y)],(1)
其中 p ψ ( z ∣ x , y ) p_{\psi}(z|x, y) pψ(z∣x,y)