交互式学习与新闻导航系统:提升对话系统效能
交互式学习构建意图检测器
在意图检测中应用交互式学习时,我们将来自微软Cortana的2500万条原始话语加载到交互式学习(IL)工具中。对于键入的话语,日志包含输入的文本;对于语音话语,日志包含(可能有误的)语音识别器的输出,同时排除可能包含个人或识别信息的话语。
接着,使用ICE构建电影领域的三个意图检测器:
- MOVIESDIRECTEDBY:用户请求查找由特定人物执导的所有电影,例如 “What movies did Stanley Kubrick direct?”
- WHODIRECTED:用户请求获取特定电影的导演姓名,例如 “Who directed The Matrix?”
- MOVIERUNTIME:用户请求了解特定电影的时长,例如 “How long is Gone with the Wind?”
前两个意图的构建是为了熟悉IL工具,因此未仔细记录工作时长。最后一个意图是在可控且仔细记录的条件下构建的,开发者添加了n元语法特征、特定的n元语法(如 “director”、“movie” 和 “who directed”),以及一个包含Freebase中所有电影名称的类别。
以下是构建MOVIERUNTIME意图的累积工作量(时间):
|总标注实例数|时间(分钟)|
| ---- | ---- |
|100|28|
|600|90|
标注600条话语需要90分钟,且每条话语的边际时间急剧下降,这体现了交互式学习的优势。早期标注时,开发者需手动搜索话语进行标注,模型无法提供标签建议,需要更多的特征工程;后期标
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



