LangChain实战:从零构建网页爬虫与内容分析工具

LangChain作为大语言模型(LLM)的编程框架,正在重塑AI应用开发范式。其核心价值在于:

组件化设计‌:将LLM、记忆模块、工具调用等抽象为可插拔组件

‌链式编排‌:通过Chain实现复杂逻辑的流程化控制

‌生态整合‌:支持OpenAI、HuggingFace等主流模型平台

本文将以‌网页内容抓取与分析‌场景为例,演示如何用LangChain快速构建智能工具。

一、环境准备(Python 3.8+)

1.安装核心库

pip install langchain langchain-community langchain-core html2text

2.配置API密钥

import os
os.environ["OPENAI_API_KEY"] = "sk-xxx"  # 替换为您的OpenAI Key

二、核心功能实现

1.网页内容抓取模块

from langchain_community.document_loaders import AsyncHtmlLoader
from langchain_community.document_transformers import Html2TextTransformer

# 异步加载网页
urls = ["https://example.com/news"]
loader = AsyncHtmlLoader(urls)
docs = loader.load()

# HTML转Markdown
transformer = Html2TextTransformer()
cleaned_docs = transformer.transform_documents(docs)

2.内容摘要生成链

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

prompt = ChatPromptTemplate.from_template(
    "用中文总结以下内容,保留关键数据:\n\n{text}"
)

model = ChatOpenAI(model="gpt-3.5-turbo")
summarize_chain = prompt | model

3.执行分析任务

result = summarize_chain.invoke({"text": cleaned_docs.page_content})
print(result.content)

三、进阶:构建自动化处理流水线

1.顺序链(SequentialChain)整合

from langchain.chains import SimpleSequentialChain

# 定义预处理链
preprocess_prompt = ChatPromptTemplate.from_template(
    "提取涉及公司名称和金额的信息:\n{text}"
)
preprocess_chain = preprocess_prompt | model

# 组合工作流
full_chain = SimpleSequentialChain(
    chains=[preprocess_chain, summarize_chain],
    verbose=True
)

final_result = full_chain.invoke(cleaned_docs.page_content)

2.输出解析(Output Parsing)

from langchain_core.output_parsers import CommaSeparatedListOutputParser

parser = CommaSeparatedListOutputParser()
structured_chain = summarize_chain | parser
structured_data = structured_chain.invoke({"text": cleaned_docs.page_content})

四、常见问题排查

1.网络请求异常

# 配置代理
os.environ["HTTP_PROXY"] = "http://127.0.0.1:7890"
os.environ["HTTPS_PROXY"] = "http://127.0.0.1:7890"

2.处理大文本内容

# 使用文本分割器
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=200
)
split_docs = text_splitter.split_documents(cleaned_docs)

要么驾驭AI,要么被AI碾碎

 当DeepSeek大模型能写出比80%人类更专业的行业报告,当AI画师的作品横扫国际艺术大赛,这场变革早已不是“狼来了”的寓言。‌2025年的你,每一个逃避学习的决定,都在为未来失业通知书签名。‌

‌记住:在AI时代,没有稳定的工作,只有稳定的能力。今天你读的每一篇技术文档,调试的每一个模型参数,都是在为未来的自己铸造诺亚方舟的船票。 

1.AI大模型学习路线汇总

L1阶段-AI及LLM基础

L2阶段-LangChain开发

L3阶段-LlamaIndex开发

L4阶段-AutoGen开发

L5阶段-LLM大模型训练与微调

L6阶段-企业级项目实战

L7阶段-前沿技术扩展

2.AI大模型PDF书籍合集

3.AI大模型视频合集

4.LLM面试题和面经合集

5.AI大模型商业化落地方案

📣朋友们如果有需要的话,可以V扫描下方二维码联系领取~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值