含自我修正话语转录的解析研究
1. 引言
自然语言理解系统若要处理口语转录内容,就必须应对其中大量存在的自我修正(或自我更正)情况。这是一个长期存在的问题,口语中的犹豫和错误起始是常见特征,无法处理这些情况的解释器会立即失效。当前的普遍做法是通过编辑规则来处理中断和自我修正,使文本规范化,这些规则属于性能设备中的一种调整模块。
然而,我们提出一种新的方法,即中断和自我修正可以直接由句法模块处理。这一建议基于“说话者以符合语言原则的方式进行修正”这一观察。自我修正的规律性在语言学、会话分析、心理语言学等多个领域的详细描述性研究中得到了强调。例如,Levelt提出自我修正是一个句法上有规律的过程,说话者倾向于遵循句法协调的正常规则。但我们已证明自我修正不能简单归结为一种协调关系。不过,自我修正的形式不仅有规律,还遵循一个简单的几何形式原则,该原则在PS - 语法中得到了形式化表示,为解析含自我修正的非标准输入提供了新视角,通过对标准解析算法进行简单且有原则的扩展就能处理这些输入,我们以Earley算法为例进行说明。
2. 自我修正的特征
2.1 自我修正的显性特征
自我修正的显性特征表现为:一个话语被中断,中断通过一些韵律或语音信号标记,如截断、停顿、犹豫标记或延长音等。中断后会出现任意数量的成分,这些成分与被中断的话语呈并列关系。以下是从转录对话语料库中选取的示例:
- a. elle était:: an - mm irlandaise (.) enfin:: de l’Irlande
- b. elle ne sort plus de son:: euh studio
- c. mais il fau
基于右边缘原则的自我修正解析
超级会员免费看
订阅专栏 解锁全文
1809

被折叠的 条评论
为什么被折叠?



