利用英语资源提升低资源语言机器阅读理解及马来语情感分析新方法
在自然语言处理领域,机器阅读理解(MRC)和情感分析是重要的研究方向。然而,低资源语言在这些任务中面临着诸多挑战,如缺乏高质量的数据集等。下面将分别介绍利用英语资源提升低资源语言机器阅读理解的方法,以及一种基于无标签数据集诱导马来语情感词典的框架。
利用英语资源提升低资源语言机器阅读理解
在机器阅读理解任务中,很多模型是基于大量英语语料训练的,这使得它们在英语任务上表现出色,但在低资源语言上效果不佳。为了解决这个问题,研究人员提出了一些新的方法。
相关工作
- 词表示模型 :词表示模型能将单词根据上下文转换为向量,在自然语言处理任务中至关重要。早期方法通过不同算法衡量句子间的相似度,后来基于注意力机制的交互方法也很流行。近年来,基于Transformer的深度上下文语言模型在各种MRC任务中表现出有效性,如BERT、XLM - RoBERTa和mT5等。构建上下文语言模型有两种方法:构建生成模型(如mT5、GPT、BART),结合Transformer的编码器和解码器;或使用多个Transformer编码器(如BERT及其变体)。不过这些模型大多在英语语料上训练和微调,在低资源语言上的表现不如英语。越南语的词嵌入模型如PhoBERT、ViBERT、vELECTRA和BARTPho在词性标注、命名实体识别和文本摘要等任务上有较好结果,但在MRC任务上效果欠佳。研究人员提出利用基于BERT的模型和英语数据集来获得比基本方法更好的结果。
- 翻译数据集 :将一种语言的资源翻译为其他语言是解决许多语
超级会员免费看
订阅专栏 解锁全文
949

被折叠的 条评论
为什么被折叠?



