18、从专家修订语料库中自动提取校正模式

最新推荐文章于 2025-12-18 15:58:22 发布

火锅TCP

最新推荐文章于 2025-12-18 15:58:22 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：元数据与语义研究：从理论到实践文章标签：自然语言处理校正模式提取语音命令规范化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/149388374

元数据与语义研究：从理论到实践专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从专家修订语料库中自动提取校正模式

1. 相关背景与数据

在自然语言处理领域，自动提取校正模式是一项重要的任务。Fossati和Di Eugenio曾提出基于语言模型的混合三元模型，该语言模型是词三元模型和词性三元模型的结合，通过马尔可夫模型方法进行词性标注来寻找候选词。

本次研究使用的数据是汽车领域的语音命令，例如“open app ”、“change radio station to ”、“read message from ”等。原始句子存在大量词汇和句法上的语言变异性，需要人工操作进行规范化处理，以生成可用于深度语义分析的高质量数据。这些规范化操作包括以下几种类型：
- 单词大小写 ：普通名词和特定领域关键词的大小写处理可能不同，如“send poi”会转换为“send POI”。
- 标点符号去除 ：例如“connect to Wi-Fi.”会变为“connect to WiFi”。
- 单词分解 ：特定领域专家可能会为后续语义分析模块分离所有格，如“Katrina’s phone”变为“Katrina ’s phone”。
- 删除：去除句子中的单词或字母，像“No! Do not call John”会变成“Do not call John”。
- 插入：重新排列句子并插入单词或字母，例如“zoom map”变为“zoom in on map”。
- 排

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。