24、古典蒙古文自动拼写校正与无监督跨语言句子表示学习

Linux

于 2025-09-28 09:40:50 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：知识科学前沿洞察文章标签：古典蒙古文拼写校正无监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linux/article/details/153620655

知识科学前沿洞察专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

古典蒙古文自动拼写校正与无监督跨语言句子表示学习

在自然语言处理领域，古典蒙古文的拼写校正以及跨语言句子表示学习是两个重要的研究方向。下面将分别介绍古典蒙古文自动拼写校正的相关成果，以及一种基于语言同构性的无监督跨语言句子表示学习框架。

古典蒙古文自动拼写校正

为了解决古典蒙古文文本中严重的拼写错误问题，研究人员提出了一种基于规则和神经模型的高质量混合方法。该方法的主要创新点在于引入了中间代码，避免了传统校对系统在初始阶段使用大量复杂规则来检测错误。

在实验中，研究人员对比了一元语法（unigram）、二元语法（bigram）、改进的二元语法（modified bigram）和 context2vec 表示模型的性能。具体性能（F 值）如下表所示：
| 方法 | 整体性能（F） |
| ---- | ---- |
| 一元语法（unigram） | 92.57% |
| 二元语法（bigram） | 87.28% |
| 改进的二元语法（modified bigram） | 93.27% |
| context2vec | 93.80% |

可以看出，context2vec 的整体性能比改进的二元语法高 0.57%，比一元语法模型高 1.33%。

此外，研究人员还进行了细粒度实验，提取了不同高频词与低频词比例的文本，测试了不同分布下的校正效果，结果如下表所示：
| 方法 | 0 | 1:1 | 2:1 | 3:1 | ∞ |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 一元语法（unigram） | 2.

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。