语音处理:从数据驱动到对话交互的探索
1. ATIS 项目评估与早期困境
ATIS(Air Travel Information System)项目从 1989 年到 1994 年进行了正式评估。定义解释原则并对比正确答案和研究系统的结果,为系统的正式评估奠定了基础。起初,系统表现令人失望,最佳系统的语音识别模块单词准确率仅 80%,自然语言理解模块仅 50%,二者连接后,理解准确率更是降至 39%。不过到 1994 年项目结束时,系统性能显著提升,各模块准确率超 90%,这充分证明了频繁可靠评估的作用。
2. 自发语音与朗读语音的差异
ATIS 项目五年的重要经验是认识到自发语音与朗读语音有很大不同。资源管理任务在不切实际的控制条件下进行,受试者按预定列表朗读,词汇和语法受限。而 ATIS 项目中,受试者可自由表达,词汇和语法不受控制,话语充满不可预测性,存在不规范和不流畅之处,如语气词、错误开头、话题转换等。自发语音的不可预测性是语音识别单词准确率初始受挫的主要原因,从资源管理项目的 95%以上降至 80%以下。
3. 提升准确率的方法
为提高单词准确率,答案是获取更多数据。通过 MADCOW 收集更多数据后,各研究点的单词准确率达到 90%左右。但提升自然语言理解部分并非易事。此前自然语言处理主要针对文本句子,而自发语音存在不规范和不流畅问题。项目初期,语音研究团队向自然语言处理同事求助,他们用处理文本句子的方法,但首次 NIST 评估结果表明,自发语音不能用处理书面文本的方式。传统基于规则的系统在 ATIS 项目中失败,于是出现了鲁棒解析的新思路。
4. 鲁棒解析与概念提取
鲁棒解
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



