15、跨语言嵌入空间资源差距弥合与金属微观结构图像分类研究

跨语言嵌入空间资源差距弥合与金属微观结构图像分类研究

1. 跨语言嵌入空间资源差距弥合

在跨语言嵌入空间的研究中,旨在弥合单语嵌入空间的资源差距,让低资源语言在跨语言嵌入空间中得到更好的表示。选择的语言有英语、俄语、白俄罗斯语、孟加拉语和阿萨姆语,其中英语和俄语资源丰富,其余为低资源语言。不过,俄语和白俄罗斯语、孟加拉语和阿萨姆语在类型学上相关。

采用了三种不同形式的跨语言监督来诱导跨语言嵌入空间:
- 使用相同拼写字符串映射 :将四种语言分别通过与英语嵌入空间中相同拼写的字符串映射到英语嵌入空间。这些相同拼写的字符串源于其他语言维基百科中使用的英语单词,但在非英语嵌入空间中分布差异大,作为跨语言信号效果不佳,阿萨姆语 - 英语和白俄罗斯语 - 英语的双语词嵌入(BLI)任务得分较低。
- 基于关系相似度聚类 :对语言对的关系相似度值应用模糊C均值聚类算法进行聚类。最初根据分区系数(PC)和分区熵系数(PEC)将聚类数设为2,俄语、白俄罗斯语、孟加拉语和阿萨姆语聚为一类,英语为另一类。以俄语为桥梁语言将白俄罗斯语和阿萨姆语映射到英语空间,白俄罗斯语 - 英语的BLI性能有所提升,因为二者类型学相似且有大量相同拼写字符串;但阿萨姆语 - 英语效果不佳。当聚类数设为3,以孟加拉语为桥梁语言时,阿萨姆语 - 英语的性能得到改善。
- 构建三角训练词典 :利用桥梁语言的可用资源为阿萨姆语 - 英语和白俄罗斯语 - 英语对构建三角训练词典,然后直接将阿萨姆语和白俄罗斯语映射到英语空间,进一步提升了性能。

实验结果显示,在大多数情况下性能有所提升。在

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值