跨语言文本分类的细化框架
在当今信息爆炸的时代,跨语言文本分类(CLTC)在处理多语言信息方面具有重要意义。然而,目前对于CLTC的研究仍存在一些挑战,尤其是在利用双语词典进行CLTC方面的研究相对较少。本文将介绍一种新颖的跨语言文本分类细化框架,旨在提高跨语言文本分类的性能。
1. 相关工作
跨语言文本分类主要分为多语言训练和跨语言训练两种情况。多语言训练是指每种语言都有足够的训练文档,但这种情况可以通过单独的单语言解决方案来处理,因此研究价值相对较低。目前,研究者们主要关注跨语言训练,即一种语言有足够的训练文档,而其他语言则没有。
通常,CLTC会使用一些外部词汇资源。例如,Li和Shawe - Taylor应用核典型相关分析(KCCA)和潜在语义分析(LSA)到平行语料库中,为CLTC诱导语义空间;Olsson等人使用由平行语料库诱导的概率双语词典,将测试数据翻译成训练数据的语言。然而,良好的语义空间或准确的翻译概率依赖于大量的平行语料库,而大规模平行语料库并不容易获取。为了缓解这一困难,Gliozzo和Strapparava利用可比语料库通过LSA诱导语义空间,但这种方法仅适用于具有相同概念的共同词汇的语言对。此外,Fortuna和Shawe - Taylor应用机器翻译系统生成伪特定领域的平行语料库,Rigutini等人使用机器翻译系统来弥合不同语言之间的差距,但许多语言对缺乏机器翻译系统,并且翻译文档和原始文档之间的统计特征仍存在很大差距。
与上述词汇资源相比,双语词典是一种廉价且容易获取的资源,但单独使用双语词典进行CLTC的研究较少。本文将重点关注这一方向。
2. 细化框架
该细化框架由两个阶段组成,
超级会员免费看
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



