LiveDoc与遗传算法在信息处理和图像增强中的应用
1. LiveDoc:基于主题建模的上下文信息展示
LiveDoc是一款能够处理自然语言文档信息的应用程序,它可以从开放的结构化和非结构化数据源中收集背景信息,并将这些信息与文档进行融合。用户在阅读文档时就能看到这些增强信息,从而更好地理解文档内容。
1.1 从结构化数据源获取上下文信息
- 单实体信息过滤 :在维基百科信息框中,像纽约这样的“地点”实体具有立法机构、加入日期、经纬度等多种属性。对于像史蒂夫·旺德这样的“人物”实体,维基页面信息框包含职业、背景、出生地等属性。LiveDoc会根据文档上下文过滤这些条目。例如在一篇关于纽约的政治文档中,只会提取立法机构等相关条目,而跳过经纬度等信息。
- 实体对关系过滤 :从实体对之间可能存在的多种关系中,LiveDoc会过滤出与文档上下文相关的关系。例如在一篇政治文档中,会显示人物与城市之间的“州长关系”,而非“出生关系”。
1.2 从非结构化数据源获取上下文信息
- 单实体信息提取 :通过使用LDA和HDP模型,LiveDoc在BBC和Speech数据集上表现出较高的精确率和召回率,证明了其在提取相关上下文信息方面的有效性。例如在一篇BBC商业文章中,关于一家公司投资谷歌的报道,LiveDoc会提取谷歌的财务信息,如收入、股价增长等,而不是一般信息。
- 实体对信息提取 :对于实体对信息的提取,LiveDo
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



