微语 0.7.8 发布，支持全文 + 向量混合检索

最新推荐文章于 2025-09-08 22:09:36 发布

原创最新推荐文章于 2025-09-08 22:09:36 发布 · 396 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

微语是一款企业级多租户团队协作工具，其 0.7.8 版本发布，新增了支持全文 + 向量混合检索的功能1。以下是对全文检索、向量检索及混合检索的介绍：

全文检索：将部分或全部文本查询与数据库中存储的文档进行匹配，即使在部分匹配的情况下也能提供结果，允许为用户构建更灵活的搜索界面，使用户能够更快地找到准确的结果。高效的全文搜索解决方案还具有对拼写错误、同义词、前缀搜索和模糊匹配的容忍度，能让用户在可用信息有限的情况下找到想要的内容。
向量检索：是人工智能驱动的搜索方法，它通过大型语言模型 (LLM) 处理数据库记录并生成向量嵌入，即文档语义的数字表示，然后通过比较相似的向量来查找具有相似语义的文档，实现语义搜索，特别支持多模式搜索。
混合检索：结合了全文搜索和向量搜索的优点，建立在全文搜索的可访问性、即输入即搜索体验的基础上，并集成了人工智能搜索支持的增强发现功能。开发人员可以使用统一的 API 来进行所有类型的搜索，通过参数配置来平衡语义搜索结果的重要性，以保持整体搜索结果的相关性，从而提高搜索结果的准确性和全面性。

该版本因项目默认使用 ollama qwen3:0.6b 模型，所以需要提前拉取模型。

可以通过以下方法平衡微语的语义搜索结果重要性：

优化数据预处理
- 文本清洗：去除特殊字符、表情符号、网址、广告信息等噪音数据，减少无关信息对语义搜索的干扰，使搜索结果更聚焦于有效内容。
- 分词和词性标注：将文本进行分词处理，并标注每个词的词性，有助于更准确地理解文本的语法结构和语义信息，提高语义搜索的精度。
- 停用词去除：停用词如 “的”“是”“在” 等通常对语义表达贡献较小，去除它们可以降低数据维度，提高搜索效率和准确性。
利用知识图谱
- 实体链接：将搜索结果中的实体与知识图谱中的相应实体进行关联，通过知识图谱提供的丰富结构化知识，进一步理解实体的含义、属性和关系，从而更准确地评估搜索结果与查询的相关性，提升相关结果的重要性。
- 关系抽取：借助知识图谱挖掘文本中实体之间的关系，使语义搜索能够考虑到实体间的关联信息，对于包含更多相关实体关系的搜索结果，给予更高的权重，以平衡结果的重要性。
分析用户行为数据
- 点击数据：记录用户点击的搜索结果，对于经常被用户点击的结果，说明其与用户需求的匹配度较高，在后续的搜索中可以适当提高这类结果的排名权重，以平衡语义搜索结果的重要性。
- 搜索历史：分析用户的搜索历史记录，了解用户的兴趣偏好和搜索习惯，为用户提供个性化的搜索结果。对于符合用户历史搜索偏好的语义搜索结果，增加其重要性，提高用户对搜索结果的满意度。
改进语义匹配模型
- 选择合适的模型：根据微语的特点和应用场景，选择适合的语义匹配模型，如基于深度学习的 Siamese Network、Matching Network 等模型，这些模型能够实现更加精准的语义匹配，从而更准确地评估搜索结果与查询的相似度，合理平衡结果的重要性。
- 模型微调：利用大规模的预训练语言模型，如 BERT、GPT 等，并在微语的特定数据集上进行微调，使其更好地适应微语的语义理解和搜索任务，提高语义搜索结果的准确性和重要性平衡。