LangChain实战：从零构建网页爬虫与内容分析工具

最新推荐文章于 2025-05-17 10:00:13 发布

AI大模型嘟嘟

最新推荐文章于 2025-05-17 10:00:13 发布

阅读量1.3k

点赞数 21

文章标签： ai langchain 人工智能大模型 llama AI大模型学习

本文链接：https://blog.youkuaiyun.com/2501_91588927/article/details/147152919

版权

LangChain作为大语言模型（LLM）的编程框架，正在重塑AI应用开发范式。其核心价值在于：

‌组件化设计‌：将LLM、记忆模块、工具调用等抽象为可插拔组件

‌链式编排‌：通过Chain实现复杂逻辑的流程化控制

‌生态整合‌：支持OpenAI、HuggingFace等主流模型平台

本文将以‌网页内容抓取与分析‌场景为例，演示如何用LangChain快速构建智能工具。

一、环境准备（Python 3.8+）

1.安装核心库

pip install langchain langchain-community langchain-core html2text

2.配置API密钥

import os
os.environ["OPENAI_API_KEY"] = "sk-xxx"  # 替换为您的OpenAI Key

二、核心功能实现

1.网页内容抓取模块

from langchain_community.document_loaders import AsyncHtmlLoader
from langchain_community.document_transformers import Html2TextTransformer

# 异步加载网页
urls = ["https://example.com/news"]
loader = AsyncHtmlLoader(urls)
docs = loader.load()

# HTML转Markdown
transformer = Html2TextTransformer()
cleaned_docs = transformer.transform_documents(docs)

2.内容摘要生成链

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

prompt = ChatPromptTemplate.from_template(
    "用中文总结以下内容，保留关键数据:\n\n{text}"
)

model = ChatOpenAI(model="gpt-3.5-turbo")
summarize_chain = prompt | model

3.执行分析任务

result = summarize_chain.invoke({"text": cleaned_docs.page_content})
print(result.content)

三、进阶：构建自动化处理流水线

1.顺序链（SequentialChain）整合

from langchain.chains import SimpleSequentialChain

# 定义预处理链
preprocess_prompt = ChatPromptTemplate.from_template(
    "提取涉及公司名称和金额的信息:\n{text}"
)
preprocess_chain = preprocess_prompt | model

# 组合工作流
full_chain = SimpleSequentialChain(
    chains=[preprocess_chain, summarize_chain],
    verbose=True
)

final_result = full_chain.invoke(cleaned_docs.page_content)

2.输出解析（Output Parsing）

from langchain_core.output_parsers import CommaSeparatedListOutputParser

parser = CommaSeparatedListOutputParser()
structured_chain = summarize_chain | parser
structured_data = structured_chain.invoke({"text": cleaned_docs.page_content})

四、常见问题排查

1.网络请求异常

# 配置代理
os.environ["HTTP_PROXY"] = "http://127.0.0.1:7890"
os.environ["HTTPS_PROXY"] = "http://127.0.0.1:7890"

2.处理大文本内容

# 使用文本分割器
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=200
)
split_docs = text_splitter.split_documents(cleaned_docs)

要么驾驭AI，要么被AI碾碎‌

当DeepSeek大模型能写出比80%人类更专业的行业报告，当AI画师的作品横扫国际艺术大赛，这场变革早已不是“狼来了”的寓言。‌2025年的你，每一个逃避学习的决定，都在为未来失业通知书签名。‌

‌记住：在AI时代，没有稳定的工作，只有稳定的能力。今天你读的每一篇技术文档，调试的每一个模型参数，都是在为未来的自己铸造诺亚方舟的船票。

1.AI大模型学习路线汇总

L1阶段-AI及LLM基础

L2阶段-LangChain开发

L3阶段-LlamaIndex开发

L4阶段-AutoGen开发

L5阶段-LLM大模型训练与微调

L6阶段-企业级项目实战

L7阶段-前沿技术扩展

2.AI大模型PDF书籍合集

3.AI大模型视频合集

4.LLM面试题和面经合集

5.AI大模型商业化落地方案

📣朋友们如果有需要的话，可以V扫描下方二维码联系领取~

‌