跨语言嵌入空间资源差距弥合与金属微观结构图像分类研究
1. 跨语言嵌入空间资源差距弥合
在跨语言嵌入空间的研究中,旨在弥合单语嵌入空间的资源差距,让低资源语言在跨语言嵌入空间中得到更好的表示。选择的语言有英语、俄语、白俄罗斯语、孟加拉语和阿萨姆语,其中英语和俄语资源丰富,其余为低资源语言。不过,俄语和白俄罗斯语、孟加拉语和阿萨姆语在类型学上相关。
采用了三种不同形式的跨语言监督来诱导跨语言嵌入空间:
- 使用相同拼写字符串映射 :将四种语言分别通过与英语嵌入空间中相同拼写的字符串映射到英语嵌入空间。这些相同拼写的字符串源于其他语言维基百科中使用的英语单词,但在非英语嵌入空间中分布差异大,作为跨语言信号效果不佳,阿萨姆语 - 英语和白俄罗斯语 - 英语的双语词嵌入(BLI)任务得分较低。
- 基于关系相似度聚类 :对语言对的关系相似度值应用模糊C均值聚类算法进行聚类。最初根据分区系数(PC)和分区熵系数(PEC)将聚类数设为2,俄语、白俄罗斯语、孟加拉语和阿萨姆语聚为一类,英语为另一类。以俄语为桥梁语言将白俄罗斯语和阿萨姆语映射到英语空间,白俄罗斯语 - 英语的BLI性能有所提升,因为二者类型学相似且有大量相同拼写字符串;但阿萨姆语 - 英语效果不佳。当聚类数设为3,以孟加拉语为桥梁语言时,阿萨姆语 - 英语的性能得到改善。
- 构建三角训练词典 :利用桥梁语言的可用资源为阿萨姆语 - 英语和白俄罗斯语 - 英语对构建三角训练词典,然后直接将阿萨姆语和白俄罗斯语映射到英语空间,进一步提升了性能。
实验结果显示,在大多数情况下性能有所提升。在
超级会员免费看
订阅专栏 解锁全文
1006

被折叠的 条评论
为什么被折叠?



