基于测量的类量子语言模型用于文本匹配
1 引言
量子语言模型因其透明性和可解释性,在自然语言处理任务中受到了越来越多的关注。研究表明,语言认知和理解中存在类似量子的现象,句子可看作由多个相关单词组成的物理系统,量子概率的不确定性比经典概率更能体现句子语义的不确定性。在文本匹配任务中,句子间的信息交互对最终匹配效果至关重要,而量子理论擅长处理多系统的复杂交互,因此用量子语言模型建模文本匹配任务是有效的。
此前,已有研究者提出了多种量子语言模型,如Sordoni等人首次在信息检索中提出量子语言模型(QLM),利用量子理论扩展统计语言模型;Zhang等人将量子语言模型扩展到神经网络架构,提出端到端的基于神经网络的类量子语言模型(NNQLM);Li等人构建了可解释的复值匹配网络(CNM)。然而,这些模型仍存在两个挑战:一是CNM使用可学习的参数矩阵作为测量算子提取特征,在量子理论中难以解释,且未反映句子间的信息交互;二是上述模型直接从词嵌入向量获取词密度矩阵,忽略了词间的语义关联。
为解决这些问题,本文提出基于测量的类量子语言模型(MBQLM),利用词密度矩阵作为测量算子重构句子表示,更符合量子理论。同时,使用双向门控循环单元(BiGRU)编码器对词向量进行编码,使每个词表示能更好地融入句子上下文信息,弥补词密度矩阵忽略词间语义关联的缺陷。在WikiQA和TREC - QA数据集上的实验表明,该模型比所有基准量子语言模型性能更优。
本文的主要贡献如下:
1. 提出基于测量的类量子语言模型,利用词密度矩阵作为测量算子,具有更强的可解释性。
2. 应用双向门控循环单元(BiGRU)对词向量进行编码,增强了词密度矩阵间的语义关联。
3. 在Wi
超级会员免费看
订阅专栏 解锁全文
2533

被折叠的 条评论
为什么被折叠?



