LangChainJS 项目实战：如何实现自定义检索器(Retriever)-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00329/article/details/148378046

LangChainJS 项目实战：如何实现自定义检索器(Retriever)

langchainjs 项目地址: https://gitcode.com/gh_mirrors/la/langchainjs

在 LangChainJS 生态系统中，检索器(Retriever)是一个核心组件，负责根据用户查询从数据源中获取相关文档。本文将深入讲解如何创建自定义检索器，帮助你灵活应对各种业务场景。

检索器基础概念

检索器是 LangChainJS 中负责信息检索的核心抽象，主要功能是根据输入查询返回一组相关文档(Documents)。这些文档通常会被送入后续的链式处理流程，比如问答系统或摘要生成。

自定义检索器实现步骤

1. 继承基础类

所有自定义检索器都应继承自 BaseRetriever 基类：

import { BaseRetriever } from "@langchain/core/retrievers";

2. 实现核心方法

必须实现 _getRelevantDocuments 方法（注意方法名前缀的下划线）：

async _getRelevantDocuments(
  query: string,
  runManager?: CallbackManagerForRetrieverRun
): Promise<Document[]>

3. 返回文档数组

方法应返回 Document 对象数组，每个文档包含：

pageContent: 文档实际内容
metadata: 相关元数据（可选）

完整示例解析

下面是一个静态文档检索器的完整实现：

import {
  BaseRetriever,
  type BaseRetrieverInput,
} from "@langchain/core/retrievers";
import type { CallbackManagerForRetrieverRun } from "@langchain/core/callbacks/manager";
import { Document } from "@langchain/core/documents";

export class StaticDocumentRetriever extends BaseRetriever {
  lc_namespace = ["langchain", "retrievers", "custom"];

  constructor(fields?: BaseRetrieverInput) {
    super(fields);
  }

  async _getRelevantDocuments(
    query: string,
    runManager?: CallbackManagerForRetrieverRun
  ): Promise<Document[]> {
    // 实际项目中这里可能包含数据库查询或API调用
    return [
      new Document({
        pageContent: `静态文档1 - 关于 ${query}`,
        metadata: { source: "static", id: 1 },
      }),
      new Document({
        pageContent: `静态文档2 - 关于 ${query}`,
        metadata: { source: "static", id: 2 },
      }),
    ];
  }
}

高级用法技巧

1. 集成追踪功能

通过 runManager 参数可以实现调用链追踪：

// 在方法内部调用其他可运行对象时
const additionalDocs = await someOtherRunnable.invoke(
  params, 
  runManager?.getChild()
);

2. 元数据利用

合理利用文档元数据可以增强后续处理：

new Document({
  pageContent: "文档内容",
  metadata: {
    source: "internal_db",
    created_at: "2023-01-01",
    relevance_score: 0.95
  }
})

3. 异步数据获取

实际项目中通常会涉及异步操作：

async _getRelevantDocuments(query: string) {
  const results = await fetchFromDatabase(query);
  return results.map(item => new Document({
    pageContent: item.content,
    metadata: item.meta
  }));
}