基于文本概括格的搜索技术解析
1. SLF构建模式
在信息处理中,存在两种构建概括逻辑形式(SLF)的模式:
- 基于规则的模式 :依据规则关联核心片段或卫星片段。
- 基于分类的模式 :运用机器学习学习规则,将基本话语单元(EDUs)分类为适合索引(信息丰富)和不适合索引(信息不足)两类。
下面详细介绍基于分类的SLF构建模式的操作步骤:
1. 数据收集 :为积累带标记答案的训练问答对,使用公共的Yahoo! Answers数据集。从该数据集问题的第一句形成查询,通过Bing搜索引擎API执行查询,选取4 - 6句的短文本搜索结果用于解析和话语分析。
2. 数据集构建 :将搜索结果前10页及以上的匹配片段作为正数据集(信息丰富片段),将排名100 - 1000 +页中含匹配关键词的片段作为负数据集。
3. 模型训练 :采用SVM树核学习算法训练模型,因其能直接在解析树结构上学习。
4. SLF构建 :选定用于形成SLF的文本片段后,基于该片段的抽象意义表示(AMR)子图构建实际的SLF。
在搜索工程方面,SLF构建可视为构建搜索反向索引。构建好索引后,可结合Lucene搜索引擎的默认功能和答案与查询的句法相似度构建在线搜索算法。具体流程如下:
graph LR
A[用户查询] --> B[Lucen
超级会员免费看
订阅专栏 解锁全文
1113

被折叠的 条评论
为什么被折叠?



