从专家修订语料库中自动提取校正模式
1. 相关背景与数据
在自然语言处理领域,自动提取校正模式是一项重要的任务。Fossati和Di Eugenio曾提出基于语言模型的混合三元模型,该语言模型是词三元模型和词性三元模型的结合,通过马尔可夫模型方法进行词性标注来寻找候选词。
本次研究使用的数据是汽车领域的语音命令,例如“open app ”、“change radio station to ”、“read message from ”等。原始句子存在大量词汇和句法上的语言变异性,需要人工操作进行规范化处理,以生成可用于深度语义分析的高质量数据。这些规范化操作包括以下几种类型:
- 单词大小写 :普通名词和特定领域关键词的大小写处理可能不同,如“send poi”会转换为“send POI”。
- 标点符号去除 :例如“connect to Wi-Fi.”会变为“connect to WiFi”。
- 单词分解 :特定领域专家可能会为后续语义分析模块分离所有格,如“Katrina’s phone”变为“Katrina ’s phone”。
- 删除 :去除句子中的单词或字母,像“No! Do not call John”会变成“Do not call John”。
- 插入 :重新排列句子并插入单词或字母,例如“zoom map”变为“zoom in on map”。
- 排
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



