轻松加载文档：从复制粘贴到文档对象的构建

最新推荐文章于 2025-06-15 03:14:47 发布

原创最新推荐文章于 2025-06-15 03:14:47 发布 · 440 阅读

CC 4.0 BY-SA版权

文章标签：

# 引言

在数据处理和自然语言处理的场景中，我们经常需要从各种来源快速加载文本数据。尤其是在处理临时文本片段时，效率尤为重要。本文将介绍如何使用 `langchain_core` 库直接从复制粘贴的文本构建文档对象，而无需额外的文档加载工具。

# 主要内容

## 快速构建文档对象

在需要处理少量文本或临时文档时，我们可以直接使用 `langchain_core` 的 `Document` 类构建一个文档对象，而无需使用文档加载器。下面是简单的步骤：

### 1. 导入Document类

首先，确保你已经安装了 `langchain_core`，然后导入 `Document` 类。

```python
from langchain_core.documents import Document

2. 创建文本变量

将你需要处理的文本复制粘贴到一个变量中。

text = "..... put the text you copy pasted here......"

3. 构建Document对象

直接使用文本构建 Document 对象。

doc = Document(page_content=text)

添加元数据

在某些情况下，我们可能希望为文本添加来源、日期等元数据信息。这可以通过 metadata 参数来实现。

metadata = {"source": "internet", "date": "Friday"}
doc = Document(page_content=text, metadata=metadata)

这样，我们就可以将额外的信息附加到文档对象上，方便后续追溯和管理。

代码示例

下面是一个完整的代码示例，展示如何从复制粘贴的文本构建文档对象并添加元数据：

from langchain_core.documents import Document

# 复制粘贴的文本
text = "This is a sample text for demonstration purposes."

# 创建Document对象
doc = Document(page_content=text)

# 添加元数据
metadata = {"source": "internet", "date": "Friday"}
doc_with_metadata = Document(page_content=text, metadata=metadata)

# 打印Document对象内容
print("Document Content:", doc.page_content)
print("Document Metadata:", doc_with_metadata.metadata)