文章大纲
1. 背景
在企业数字化转型迫在眉睫的今天,很多工业企业拥有大量的说明、流程、规范等文档,结构化数据库无法解决文档类型的数据检索,现有全文检索引擎默认的相似性评分算法只考虑词频相关特征,准确率低下,用户很难针对海量文档进行高效且准确的检索。
当前传统企业往往非常注重数据安全,普遍选择开发自己的内部办公、业务系统,其中文档检索作为一种必不可少的子系统,在搜索引擎普及的今天是提升用户使用体验的高效手段。但是如果这些系统做不到高效的文档数据检索,则会整体降低内部系统的用户体验。
当前文档检索的方式,基本是根据用户输入的短文本内容,进行关键词命中或者短文本级别语义的相似度查询,从有限的输入信息查询基础库中包含高维信息的文档,很难有效命中。
本方法提出一种基于结构信息的分布式文本检索方案,能够帮助企业内部系统快速构建各种文档类型的结构检索数据模型,通过融合文档结构与语义信息并转化为向量进行搜索,快速实现在不同领域模型下的文档搜文档功能。
当然上述idea ,在Elastic Search 中也可以用doc2doc 很方便的实现。本文只是阐述一些基础的针对异构文档信息检索的想法。
2.文档结构信息的构建
一种基于结构信息的领域文档检索方法的主要内容包括以下两个关键 步骤
1.异构文档结构信息基础库初始化
2.基于结构信息的异构文档检索