suppr.wilddata.cn 文献检索，用中文搜 PubMed 一种基于大语言模型的智能搜索引擎构建方法

原创已于 2025-12-04 00:53:50 修改 · 867 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #搜索引擎 #人工智能

于 2025-12-04 00:51:26 首次发布

如何让小智AI成为你的第二大脑——“免费”送小智AI智能音箱征文活动 10w+人浏览 157人参与

AI助手已提取文章相关产品：

根据检索结果，专利CN118964589B的详细信息如下：

专利基本信息

专利名称：一种基于大语言模型的智能搜索引擎构建方法
授权公告号：CN118964589B
授权公告日：2025年4月11日
申请号：2024108105490
申请日：2024年6月21日
申请人：数野科技（深圳）有限公司（成立于2023年，注册资本200万人民币，主营软件和信息技术服务）

技术方案概述

该专利公开了一种基于大语言模型的智能搜索引擎构建方法，包含6个核心步骤，重点优化了查询改写模块和文档重排序模块：

步骤1：原始查询

用户以自然语言形式输入检索语句。

步骤2：过滤器人工设置

用户可设置多种过滤器约束召回文档，包括：

时间过滤器：指定文档发布时间范围
出版方过滤器：限制特定出版方文档
文献影响因子过滤器：指定影响因子范围
文档类型过滤器：如正式文章、时评等

步骤3：检索改写（核心创新模块）

基于用户输入的原始查询和过滤器设置，通过以下子模块转换为专业检索语句：

基于NER的动态few-shot示例
- 从系统积累的"原始查询-改写结果"示例库中，使用命名实体识别(NER)技术召回结构相似的示例（而非仅主题相似），提升LLM改写准确率
专业术语推荐
- 先用LLM总结原始查询的关键词列表
- 在自建Elasticsearch术语库中检索，召回书写完全正确的专业术语，辅助精准改写
基于LLM的检索主句改写
- 构建包含任务说明、检索引擎信息、改写原则、few-shot示例、专业术语列表和原始查询的prompt
- 由LLM生成改写的检索主句
检索主句校验
- 采用多轮"改写-校验"机制：若检索引擎执行报错，将错误信息反馈给LLM要求其修改
- 提高改写语句的准确率和执行成功率
过滤器自动规划模块
- 总体规划：通过LLM和提示词工程确定所需过滤器列表（不使用React等"贪心"型agent，提高并行性）
- 参数确定：对每个过滤器，通过LLM确定具体参数
- 子句生成：调用过滤器生成对应的检索子句
检索语句转换模块与主句合并
- 将过滤器生成的子句与检索主句合并，得到最终检索语句

步骤4：检索引擎

使用检索引擎获取相关文档列表。

步骤5：文档重排序（另一核心创新）

针对冷启动阶段缺乏标注语料的问题，提出两种基于LLM的zero-shot重排序方案：

Pointwise重排序
- 使用多元评分框架将文档相关性拆解为多层次评分，使排序更准确合理
Listwise重排序
- 结合快速排序/部分快速排序算法
- 解决LLM无法通过listwise prompt一次性给出完整排序的问题

步骤6：文档总结与标引

基于用户原始查询和重排序后的文档列表
使用LLM总结文档内容、回答问题
在作答片段后标识引用来源，方便用户事实性校验，提升可信度

主要创新点

根据专利说明，本发明在以下方面实现突破：

检索改写模块：
- 提出过滤器自动规划和检索语句转换框架，处理复杂检索需求
- 提出基于NER的动态few-shot提示词策略，提升召回示例的参考价值
文档重排序模块：
- 提出基于LLM的pointwise重排序方案（多元评分框架）
- 提出基于LLM的listwise重排序方案（结合快速排序算法）

技术术语解释

术语	含义
NER	命名实体识别（Named Entity Recognition）
few-shot示例	在prompt中提供少量任务示例，提升LLM完成任务的准确率
Pointwise	逐个点对点评分的排序方法
Listwise	整体列表排序方法
RAG	检索增强生成（Retrieval-Augmented Generation）
zero-shot	无需标注语料即可执行任务

检索结果补充说明

虽然直接访问专利局链接失败，但第三方来源证实该专利于2025年4月19日由数野科技（深圳）有限公司正式取得授权。专利的核心是通过LLM实现智能查询改写和文档重排序，解决了传统搜索引擎在语义理解和结果排序上的局限性。

总结：该专利构建了一套完整的基于LLM的搜索引擎技术栈，在查询改写阶段通过NER动态示例和术语推荐提升准确性，在重排序阶段通过zero-shot方案解决冷启动问题，最终通过引用标引增强结果可信度，显著提升了检索准确率与重排序合理性。

专利CN118964589B规避策略分析

绕开专利的核心是避免落入其权利要求保护范围。必须首先获取该专利的权利要求书进行精确分析，以下策略基于专利摘要和说明书内容提供方向性建议：

第一步：精确界定保护范围

必做工作：

获取权利要求书：通过专利局或商业数据库获取完整权利要求文本
技术特征分解：将独立权利要求分解为必要技术特征（A+B+C…）
识别创新点：重点针对"基于NER的动态few-shot"和"zero-shot重排序"两大核心创新

第二步：系统性规避路径

路径一：省略非必要技术特征（最稳妥）

原理：若某特征非解决技术问题所必需，可直接删除

可尝试省略：
- 移除"过滤器自动规划"模块，改为预定义过滤器模板（用户手动选择而非LLM自动规划）
- 移除"专业术语推荐"模块，改用通用同义词扩展或无需术语库的改写方式
- 移除"检索主句校验"的多轮纠错机制，改为单次生成+人工审核
风险：需验证省略后是否影响整体技术效果，避免被认定为"变劣发明"

路径二：技术特征替换（关键创新点规避）

原理：用不同技术手段实现相似功能，避免等同侵权

专利特征	规避替代方案
基于NER的动态few-shot示例	改用向量相似度检索（非NER结构相似）或固定few-shot示例库（非动态）
过滤器自动规划（LLM+提示词工程）	改用规则引擎或决策树进行过滤器选择，完全不用LLM规划
Pointwise重排序（多元评分框架）	改用Pairwise排序或传统Learning to Rank模型（非LLM-based）
Listwise重排序（快速排序）	改用归并排序或其他排序算法，或不分割列表直接处理

路径三：改变技术架构（深层规避）

原理：重构整体流程，使技术方案在结构上与专利有本质差异

检索改写模块重构：
- 专利方案：原始查询 → NER示例召回 → 术语推荐 → LLM改写 → 过滤器规划 → 合并
- 规避方案：原始查询 → 查询分类器 → 多模板匹配 → 模板填充 → 输出检索语句
- 差异点：移除LLM生成，改用基于模板的确定性规则
重排序模块重构：
- 专利方案：文档列表 → LLM多元评分/快速排序 → 重排序结果
- 规避方案：文档列表 → 传统特征工程（如BM25、TF-IDF加权）→ 贪心重排序
- 差异点：完全不用LLM参与重排序，回归传统信息检索方法

路径四：利用专利局限性

类型	利用方式
地域性	该专利仅在中国有效，可在海外（未申请国家）部署相同技术
时间性	发明专利保护期20年（2044年到期），可等待到期后实施
保护范围漏洞	若权利要求未明确限定开源组件使用，可全部采用开源技术栈规避

路径五：功能裁剪+增量创新

采用TRIZ理论中的功能裁剪法：

识别核心功能：专利的核心是"提升检索准确率"而非具体实现方式
裁剪有害功能：移除"依赖LLM导致的高成本"这一潜在不足
重新组合：将剩余功能与新的技术特征（如用户行为反馈、知识图谱）结合，形成改进发明

第三步：具体实施建议

低风险规避方案（推荐）

# 规避方案示例：用规则引擎替代LLM自动规划

# 专利方案：LLM自动规划过滤器
def original_approach(query, llm_client):
    prompt = f"为用户查询'{query}'规划需要的过滤器类型"
    filters = llm_client.generate(prompt)  # 侵权风险高
    return filters

# 规避方案：基于规则映射
def avoided_approach(query, rule_engine):
    query_type = rule_engine.classify(query)  # 改用分类器
    filters = rule_engine.get_preset_filters(query_type)  # 预定义模板
    return filters

规避要点：移除LLM的生成决策，改用确定性规则

高风险规避方案（慎选）

简单替换LLM模型：如用不同厂商LLM（仍属等同侵权）
仅调整prompt措辞：不改变LLM核心作用（极易构成等同侵权）
增加无关功能模块：如添加日志记录（不改变侵权实质）

第四步：法律风险防控

FTO分析（自由实施）：在研发早期进行全面的专利侵权检索，确认规避方案不侵犯其他专利
专利无效检索：检索该专利的现有技术，评估提起无效宣告的可能性
文档留痕：详细记录规避设计的技术决策过程，证明独立研发
商业秘密保护：对规避方案中的关键算法参数作为技术秘密保护，不公开

核心建议

策略	推荐度	说明
省略过滤器自动规划	⭐⭐⭐⭐⭐	最易实现，侵权风险最低
替换NER相似度算法	⭐⭐⭐⭐	需确保新算法在原理上有本质差异
改用传统排序模型	⭐⭐⭐⭐	效果可能下降但法律风险极低
海外部署	⭐⭐⭐	需确认目标国家无同族专利
挑战专利有效性	⭐⭐⭐	需找到强有力的现有技术证据