39、开放领域闲聊短语数据库的实用评估：英西双语案例研究

最新推荐文章于 2025-11-24 21:22:24 发布

m0n1o2p

最新推荐文章于 2025-11-24 21:22:24 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：智能信息与工程系统前沿文章标签：自然语言处理对话系统闲聊短语数据库

本文链接：https://blog.youkuaiyun.com/m0n1o2p/article/details/149376461

智能信息与工程系统前沿专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

开放领域闲聊短语数据库的实用评估：英西双语案例研究

1. 引言

实现能与人类持续对话的计算机应用，长期以来一直是自然语言处理（NLP）研究人员关注的目标。随着计算语言学、语音技术等人类语言技术核心领域的显著进步，对话系统应用不断发展。这些应用涵盖了目标明确的口语对话系统，如用于国际天气信息的电话对话界面Jupiter、航空旅行信息系统、餐厅指南、邮件或日历的电话界面、汽车导航系统等，也包括模拟人类闲聊的尝试，如ELIZA。

自然语言生成（NLG）作为计算语言学和面向语言的人工智能（AI）的一个子领域，致力于研究和模拟书面或口语话语的生成。语言生成的应用和局限性已被广泛研究，常见的方法有：
- 预存文本方法：计算机直接输出程序员给定的文本。
- 模板填充方法：用预定模板生成所需输出。
- 基于短语的方法：可将其概念化为广义模板，递归匹配输入的部分内容。
- 基于特征的方法：将生成概念化为适合输入各部分的特征集合。

模板填充方法曾用于模拟人类闲聊，但像著名的对话系统ELIZA，由于模板限制，对话易变得重复单调，难以满足用户期望。近年来，Inui等人采用基于语料库的方法进行对话系统的语言生成，通过关键词匹配从对话语料库中提取样本对话，但未给出系统的整体评估，难以比较其性能。其他对话系统如ALICE和Jabberwacky也采用基于语料库的方法进行自然语言生成，但基于语料库的对话系统存在手工制作对话语料库的繁琐问题。

此前的研究提出了一种独立于语言的自动生成闲聊短语数据库的方法，旨在减少创建聊天机器人对话语料库的工作量和时间。然而，客观评估对话伙伴（聊天机器人）系统的性能较为困难，因为对话中没有固定任务，且需保持话题连贯性。聊天