本地大模型接入钉钉机器人：实现文本与识图功能

本地大模型接入钉钉机器人实现图文功能

原创

已于 2025-08-12 09:58:09 修改 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-08-08 16:38:32 首次发布

在智能办公时代，将本地部署的大语言模型接入日常通讯工具能极大提升工作效率。本文将基于 chatgpt-on-wechat 项目，教你如何实现钉钉机器人的智能交互，并突破性添加原项目不支持的识图功能。

源码基座
- 原始项目：chatgpt-on-wechat（内置多种消息类型的接入点、Session 管理、LLM 调用接口）
- 优点：已成熟支持本地模型（如 ChatGLM、LLaMA）、微信消息协议
改造目标
- 在消息处理逻辑中注入「图像识别」：收到用户发图后，自动 OCR，并把识别结果与 LLM 回答合并推送
关键技术点
- 钉钉机器人消息回调＋媒体文件拉取
- 利用多模态模型达到对接识图效果