利用潜在信息增强BERT进行短文本分类
1. 引言
文本分类是自然语言处理(NLP)的核心任务之一,在意见挖掘、情感分析和新闻分类等实际应用中广泛使用。与标准文本分类不同,短文本分类面临着稀疏性、篇幅短、上下文信息不足和语义不充分等问题,这给传统文本分类方法带来了巨大挑战。
近年来,学者们提出了一些策略来解决这些问题。一方面,有人尝试利用内部、外部资源和深度学习方法扩展文本,但这些方法严重依赖外部资源质量,且实际中资源稀缺;另一方面,结合预训练模型解决短文本分类任务受到关注,但这些模型缺乏泛化能力。
在此背景下,为了增强单标签短文本的分类效果,我们聚焦于改进文本扩展技术。首先进行基于多粒度的短文本扩展,弥补短文本的稀疏性。然后提出了更轻量级的EBLI(Enhancing BERT with Latent Information)模型,它能通过潜在主题信息增加模型的可解释性,提高短文本语义提取效率。此外,采用内存银行机制实现特征的联合训练。实验表明,基于扩展文本的框架在五个公共数据集上优于现有基线模型。
2. 相关工作
我们的工作与文本扩展和预训练模型两方面的研究密切相关。
2.1 文本扩展
在短文本分类任务中,文本扩展是基础研究。常见的方法是使用主题模型提取短文本的额外信息作为扩展词。例如,Gao等人提出基于条件随机场的正则化模型,从主题模型中提取合适的词来扩展内容。这些方法能有效减轻稀疏性和篇幅短对分类效果的影响,但忽略了词之间的相关性,导致主题模型无法清晰表达短文本的语义信息。
此外,新兴的关键词提取技术也受到青睐,它基于“词”粒度从单个文档中提取最相关的词。Sharm
超级会员免费看
订阅专栏 解锁全文
982

被折叠的 条评论
为什么被折叠?



