LLMs 防御升级：借函数调用机制打造无缝防御层

最新推荐文章于 2025-07-15 11:07:42 发布

大模型之路

最新推荐文章于 2025-07-15 11:07:42 发布

阅读量840

点赞数 11

CC 4.0 BY-SA版权

分类专栏：大模型（LLM）文章标签： LLM LLM安全

本文链接：https://blog.youkuaiyun.com/llm_way/article/details/147579050

大语言模型（LLMs）展现出了令人惊叹的能力，其中函数调用功能更是让其如虎添翼。然而，这一强大功能也伴随着风险，恶意用户可能利用巧妙设计的提示进行隐秘操纵。本文将深入探讨如何将函数调用机制转化为一道无缝的防御层，有效检测和防范这些潜在威胁。

一、LLMs函数调用的核心机制

函数调用是LLMs的一项强大功能，它使模型不再局限于生成文本响应。以询问 “巴黎的天气如何？” 为例，模型不再凭借猜测作答，而是返回一个结构化的函数调用，如get_weather(location="Paris")。这一过程背后有着严谨的工作流程：开发者预先定义好一系列函数，这些函数在代理框架中常被称为工具，每个函数都包含名称、描述以及预期的输入字段。在运行时，这些定义被传递给LLMs。当用户提出查询时，LLMs会对其进行解读，依据对问题的理解来决定是否调用函数以及调用哪个函数。随后，模型返回结构化输出，如：

{    "function_call": {        "name": "get_weather",        "arguments": {            "location": "Paris"        }    }}

该输出会被传递给周边系统，这个系统可能是编排器、代理框架或应用程序代码。周边系统负责调用实际的函数，如get_weather(location="Paris")，获取结果（例如 “14°C且晴朗”），并将结果回传给LLMs，最后由LLMs为用户生成最终响应。通过这样的方式，

最低0.47元/天解锁文章

200万优质内容无限畅学