17、基于文本概括格的搜索技术解析

基于文本概括格的搜索技术解析

1. SLF构建模式

在信息处理中,存在两种构建概括逻辑形式(SLF)的模式:
- 基于规则的模式 :依据规则关联核心片段或卫星片段。
- 基于分类的模式 :运用机器学习学习规则,将基本话语单元(EDUs)分类为适合索引(信息丰富)和不适合索引(信息不足)两类。

下面详细介绍基于分类的SLF构建模式的操作步骤:
1. 数据收集 :为积累带标记答案的训练问答对,使用公共的Yahoo! Answers数据集。从该数据集问题的第一句形成查询,通过Bing搜索引擎API执行查询,选取4 - 6句的短文本搜索结果用于解析和话语分析。
2. 数据集构建 :将搜索结果前10页及以上的匹配片段作为正数据集(信息丰富片段),将排名100 - 1000 +页中含匹配关键词的片段作为负数据集。
3. 模型训练 :采用SVM树核学习算法训练模型,因其能直接在解析树结构上学习。
4. SLF构建 :选定用于形成SLF的文本片段后,基于该片段的抽象意义表示(AMR)子图构建实际的SLF。

在搜索工程方面,SLF构建可视为构建搜索反向索引。构建好索引后,可结合Lucene搜索引擎的默认功能和答案与查询的句法相似度构建在线搜索算法。具体流程如下:

graph LR
    A[用户查询] --> B[Lucen
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值