信息提取与聊天机器人技术解析
信息提取:模板填充与会议信息提取系统构建
模板填充概述
模板填充任务中,待填充的模板通常是预先定义的,这一般被建模为一个两阶段的有监督机器学习问题,类似于关系提取。第一步是识别给定句子中是否存在模板,第二步是为该模板识别槽填充项,每个槽会训练一个单独的分类器。目前也有朝着自动推导模板的方向开展工作,但由于这是一个特定的、依赖领域的任务,尚未有现成的服务提供商。
例如,BBC在2019年英国选举报道中就运用了基于模板填充的文本生成技术。BBC创建了一个模板,并为英国所有650个选区自动生成新闻报道。
会议信息提取系统案例研究
假设我们为一家大型传统企业工作,通过电子邮件和企业消息平台(如Slack或Yammer)进行沟通,且大量会议讨论都在邮件线程中进行。我们的任务是构建一个系统,自动查找相关会议、预订场地或会议厅并通知相关人员。
为简化问题,我们假设每封邮件中只有一个会议。构建这样一个系统,首先需要一定数量的标注数据,可通过以下方式构建:
1. 利用历史数据进行硬编码弱监督 :若能获取过去的日历和会议预订信息以及邮件,比较预订信息和邮件是否能得到正匹配。若可以,可尝试类似第4章中描述的硬编码弱监督方法。
2. 借助预构建服务进行引导 :可以使用Google Cloud NLP或AWS Comprehend等预构建服务。例如,Google Cloud NLP有实体提取服务,可返回事件信息,利用其生成数据集,但自动创建的数据集可能不完善,需要手动验证。
假设我们处理的实体包
超级会员免费看
订阅专栏 解锁全文
8933

被折叠的 条评论
为什么被折叠?



