一种基于结构信息检索文档的思路(html,pdf,html,xml,doc,ppt,这样的异构文档应该如何检索呢?)


1. 背景

在企业数字化转型迫在眉睫的今天,很多工业企业拥有大量的说明、流程、规范等文档,结构化数据库无法解决文档类型的数据检索,现有全文检索引擎默认的相似性评分算法只考虑词频相关特征,准确率低下,用户很难针对海量文档进行高效且准确的检索。

当前传统企业往往非常注重数据安全,普遍选择开发自己的内部办公、业务系统,其中文档检索作为一种必不可少的子系统,在搜索引擎普及的今天是提升用户使用体验的高效手段。但是如果这些系统做不到高效的文档数据检索,则会整体降低内部系统的用户体验。

当前文档检索的方式,基本是根据用户输入的短文本内容,进行关键词命中或者短文本级别语义的相似度查询,从有限的输入信息查询基础库中包含高维信息的文档,很难有效命中。

本方法提出一种基于结构信息的分布式文本检索方案,能够帮助企业内部系统快速构建各种文档类型的结构检索数据模型,通过融合文档结构与语义信息并转化为向量进行搜索,快速实现在不同领域模型下的文档搜文档功能。

当然上述idea ,在Elastic Search 中也可以用doc2doc 很方便的实现。本文只是阐述一些基础的针对异构文档信息检索的想法。


2.文档结构信息的构建

一种基于结构信息的领域文档检索方法的主要内容包括以下两个关键 步骤

1.异构文档结构信息基础库初始化
2.基于结构信息的异构文档检索

2.1异构文档结构信息基础库初始化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shiter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值