利用LangChain加载Gutenberg Project电子书

最新推荐文章于 2025-10-09 01:14:01 发布

原创最新推荐文章于 2025-10-09 01:14:01 发布 · 436 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #easyui #前端 #python

利用LangChain加载Gutenberg Project电子书

技术背景介绍

Gutenberg Project是一个免费的电子书在线图书馆，提供了大量的书籍供大家免费阅读和下载。通过结合LangChain社区提供的文档加载器，我们可以非常方便地加载这些电子书并进行处理和分析。

核心原理解析

LangChain提供了一个名为GutenbergLoader的文档加载器，它能够与Gutenberg Project配合工作，轻松加载电子书内容。GutenbergLoader是一个非常棒的工具，因为它简化了电子书数据的抓取和处理过程，使开发人员能够专注于数据分析和应用开发。

代码实现演示(重点)

下面是一个使用GutenbergLoader来加载Gutenberg Project电子书的示例代码。我们假设你已经安装了LangChain库。

from langchain_community.document_loaders import GutenbergLoader

# 创建GutenbergLoader实例
loader = GutenbergLoader()

# 加载指定ID的电子书
# 例如：加载ID为1342的《傲慢与偏见》
book_id = '1342'
documents = loader.load_documents(book_id)

# 打印电子书内容（前500个字符）
for doc in documents:
    print(doc.text[:500])

# 使用API服务
import openai

client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

# 对加载的电子书内容进行进一步的处理和分析
# 例如：使用OpenAI服务进行文本分析
response = client.Completion.create(
    engine="davinci",
    prompt=documents[0].text[:1000],  # 传入电子书的前1000个字符
    max_tokens=100
)

# 打印分析结果
print(response.choices[0].text)