本地大模型编程实战(09)自制聊天机器人(3)_写一个基于大模型的智能聊天系统-优快云博客

本文链接：https://blog.youkuaiyun.com/liupras/article/details/145499590

文章目录

本文将实现一个比较完善的聊天机器人的主要功能。包括：

使用 LangGraph 构建聊天机器人
自动裁剪聊天历史
管理聊天会话的方法
以流的方式输出回复

我们将同时使用 llama3.1 和 deepseek 做演示。由于 langchain 可能对不同大模型支持程度不同以及其它限制，所以这个对比并不能说明哪个模型更好。

准备

在正式开始撸代码之前，需要准备一下编程环境。

计算机
本文涉及的所有代码可以在没有显存的环境中执行。我使用的机器配置为：
- CPU: Intel i5-8400 2.80GHz
- 内存: 16GB
Visual Studio Code 和 venv
这是很受欢迎的开发工具，相关文章的代码可以在 Visual Studio Code 中开发和调试。我们用 python 的 venv 创建虚拟环境, 详见：
在Visual Studio Code中配置venv。
Ollama
在 Ollama 平台上部署本地大模型非常方便，基于此平台，我们可以让 langchain 使用 llama3.1、qwen2.5 等各种本地大模型。详见：
在langchian中使用本地部署的llama3.1大模型。

自动裁剪聊天历史

我们知道，LangGraph 构建的聊天机器人可以基于 State 自动记录聊天历史，这样大模型可以了解会话上下文，聊天的体验更好。
显然，由于大模型token大小限制以及内存限制，我们不可能每次把所有的聊天历史都发给大模型。
Langchain 提供了 trim_messages 方法，可以利用大模型的能力，智能裁剪聊天历史。
我们先定义裁剪聊天历史的方法：

def get_trimmer(model_name,max_tokens):
    """
    重要：请务必在在加载之前的消息之后，并且在提示词模板之前使用它。
    """
    model = ChatOllama(model=model_name,temperature=0.3,verbose=True)
    trimmer = trim_messages(
        max_tokens=max_tokens,  #设置裁剪后消息列表中允许的最大 token 数量
        strategy="last",        #指定裁剪策略为保留最后的消息，即从消息列表的开头开始裁剪，直到满足最大 token 数量限制。
        token_counter=model,    #通过model来计算消息中的 token 数量。
        include_system=True,    #在裁剪过程中包含系统消息（SystemMessage）
        allow_partial=False,    #不允许裁剪出部分消息，即要么保留完整的消息，要么不保留，不会出现只保留消息的一部分的情况。
        start_on="human",   #从人类消息（HumanMessage）开始进行裁剪，即裁剪时会从第一个HumanMessage开始计算 token 数量，之前的系统消息等也会被包含在内进行整体裁剪考量。
    )
    return trimmer

通过查看代码注释，我们可以发现这种裁剪方式很智能。
下面我们初始化一个消息列表，对它进行一下裁剪测试：

messages = [
    SystemMessage(content="你是个好助手"),
    HumanMessage(content="你好，我是刘大钧"),
    AIMessage(content="你好"),
    HumanMessage(content="我喜欢香草冰淇淋"),
    AIMessage(content="很好啊"),
    HumanMessage(content="3 + 3等于几？"),
    AIMessage(content="6"),
    HumanMessage(content="谢谢"),
    AIMessage(content="不客气"),
    HumanMessage(content="和我聊天有意思么？"),
    AIMessage(content="是的，很有意思"