18、从专家修订语料库中自动提取校正模式

从专家修订语料库中自动提取校正模式

1. 相关背景与数据

在自然语言处理领域,自动提取校正模式是一项重要的任务。Fossati和Di Eugenio曾提出基于语言模型的混合三元模型,该语言模型是词三元模型和词性三元模型的结合,通过马尔可夫模型方法进行词性标注来寻找候选词。

本次研究使用的数据是汽车领域的语音命令,例如“open app ”、“change radio station to ”、“read message from ”等。原始句子存在大量词汇和句法上的语言变异性,需要人工操作进行规范化处理,以生成可用于深度语义分析的高质量数据。这些规范化操作包括以下几种类型:
-
单词大小写 :普通名词和特定领域关键词的大小写处理可能不同,如“send poi”会转换为“send POI”。
-
标点符号去除 :例如“connect to Wi-Fi.”会变为“connect to WiFi”。
-
单词分解 :特定领域专家可能会为后续语义分析模块分离所有格,如“Katrina’s phone”变为“Katrina ’s phone”。
-
删除 :去除句子中的单词或字母,像“No! Do not call John”会变成“Do not call John”。
-
插入 :重新排列句子并插入单词或字母,例如“zoom map”变为“zoom in on map”。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值