
风险面
文章平均质量分 91
Ai野生菌
行业洞察 | 产业发展 | 学术科普
聚焦价值与挑战的双面解读|打开人工智能新世界
一起踏上 AI 探索之旅 ️
在这里,共赴AI未来!
展开
-
风险研究 | AI 安全警钟响起:Manus AI 漏洞暴露的背后真相
Manus AI 是一款由中国初创公司开发的通用 AI 代理,旨在自主执行复杂任务,如报告编写和数据分析。最近,一名用户通过请求输出特定目录内容(如),获取了 Manus AI 的系统提示词和运行时代码。这表明 Manus AI 的输入处理存在漏洞,未能有效隔离敏感指令,属于提示词注入攻击的一种。原创 2025-03-25 17:58:51 · 1193 阅读 · 0 评论 -
LLM安全 | 大语言模型越狱:黑盒攻击揭秘
上一篇,我们探讨了越狱攻击对LLM安全性的影响,分析了不同的攻击方法,包括基于梯度、Logits和微调的技术,并讨论了它们在白盒场景中的应用。随着LLM在各领域的广泛应用,如何有效防范这些攻击已经成为一个亟待解决的课题。本文,我们将转向黑盒场景,重点分析三种主要的越狱攻击方法:基于模板补全的攻击方法、基于提示词重写的攻击方法,以及基于LLM进行生成的攻击方法。与白盒攻击的隐蔽性不同,黑盒场景下攻击者对模型的内部结构没有访问权限,这给黑盒场景的攻击方法增加了许多挑战...原创 2025-02-28 16:00:00 · 1061 阅读 · 0 评论 -
LLM安全 | 大语言模型越狱:白盒攻击揭秘
通过这种方式,优化后的后缀在语义上是有意义的,它可以绕过基于困惑度的过滤器,并在传输到ChatGPT和GPT-4等公共黑盒模型时实现更高的攻击成功率。『 ASETF的流程介绍:相比于GCG的优化目标是直接优化得到离散的后缀来诱导模型生成对应的恶意行为,ASETF的优化目标是连续的,也就是优化h0~hi这一段连续的嵌入层来得到"Sure,here is how to make a bomb",然而很多情况下我们没办法得到黑盒模型的嵌入层,因此该方法还利用了一个嵌入层翻译模型来将连续的嵌入翻译回离散的表示。原创 2025-02-27 18:54:03 · 861 阅读 · 0 评论