自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 BERTective: Language Models and Contextual Information for Deception Detection

在该实验中,联合使用了词袋(Bag-Of-Words,BOW)特征和LIWC(Pennebaker等,2001)提供的词汇特征,并应用了支持向量机(SVM)分类器(Drucker等,1997)。语料库是意大利语的。因此,在16个基于transformer和BERT的模型中,只有四个模型的F-measure显著优于SVM,这对应于召回率的显著提升和更好的准确率,尽管后者并不显著。虽然准确率是一个标准指标,但当数据集不平衡且关注的类别是少数类时,由于其信息量有限,主要类别的表现很容易掩盖了少数类别的真实表现。

2024-12-16 17:32:51 1132

原创 AVALON’S GAME OF THOUGHTS: BATTLE AGAINSTDECEPTION THROUGH RECURSIVE CONTEMPLATION

在将ReCon与不同的LLM集成后,来自Avalon游戏的广泛实验结果证明了ReCon在提升LLM代理在Avalon游戏中的表现方面的有效性,无需额外的微调和数据。图a展示了一个来自阿瓦隆的例子,其中LLM代理作为亚瑟的忠诚仆人(善良玩家),被恶势力玩家刺客的内容误导,刺客错误地建议用一个恶势力玩家替换一个善良玩家,以达到看似平衡和揭示恶势力玩家的目的——这一看似合理但本质上有害的建议。形成/精炼思考和一阶/二阶视角转换明显影响了每种场景中的成功率,其组合,即 ReCon,产生了最高的成功率。

2024-12-16 14:41:12 973

原创 MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability

游戏过程的细节显示,在前两轮中,Llama-2-70B提供的PGM均指向错误的变色龙(红色高亮部分所示),而“玩家2”才是真正的变色龙。通过引入PGMs,不仅可以提高LLMs在多智能体场景中的表现,还能帮助它们更好地理解和推断复杂的因果关系,从而在实际应用中实现更高的准确性和可靠性。这种新颖的方法将概率图形模型(PGM) (Koller和Friedman, 2009)与llm结合在一起,从而增强了llm理解复杂场景的能力,并在多智能体环境中实现更明智的战略决策。因此,在基准测试中,S的长度为7。

2024-12-15 20:27:28 946

原创 Mitigating Poisoning Attacks on Machine Learning Models: A Data Provenance Based Approach

实验结果表明,所提出的溯源防御的检测有效性超过了基线,从而使得在可以获得可靠溯源数据的对抗环境中,在线和定期重新训练的机器学习模型得以使用。本文提出一种毒性检测方法:该方法使用有关训练集中数据点的起源和转换的上下文信息来识别有毒数据,从而使在线和定期重新训练的模型能够在潜在的敌对环境中使用数据源。因此,如何在评估过程中去除毒性数据的影响就不清楚了。本文允许对手观察或获取与用于训练算法的数据相似的数据,假设攻击者无法破坏向训练系统发送数据的所有数据源,也就是说,攻击者可以修改共享某些来源签名的数据点。

2024-12-14 17:51:44 1021

原创 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Questions

在这项综合调查中,作者对幻觉问题进行了深入研究,介绍了其潜在原因的复杂性,检测方法以及相关基准,并制定了有效的缓解策略。尽管已经取得了重大进展,但LLM幻觉难题仍然是一个令人信服和持续关注的问题,需要持续的研究。

2024-12-11 21:25:13 879

原创 ParaFuzz: An Interpretability-Driven Technique forDetecting Poisoned Samples in NLP

种子选择:基于奖励值选择语料库中的候选项变异:使用三种不同策略生成变体变体评估:评估每个变体的检测性能,保留有前景的结果模糊测试过程迭代重复这些步骤,直到达到预定的奖励阈值或最大运行时间。传统的模糊测试使用代码覆盖率(即给定输入时执行的代码部分)作为奖励来过滤变体,因为输入揭示bug的概率与代码覆盖率正相关。同样,在检测后门攻击的背景下,需要定义一个奖励来衡量提示词在区分被污染样本和干净样本上的性能。

2024-11-24 21:56:47 610

原创 A Comprehensive Overview of Backdoor Attacks in Large Language Models within Communication Networks

在本文系统地提出了通信网络中llm后门攻击的分类,将其分为四大类:输入触发攻击、提示触发攻击、指令触发攻击和演示触发攻击。本综述阐明了后门攻击在通信网络中独特背景下的概念,全面回顾并系统分类了现有的后门攻击策略及其在这些复杂系统中的应用。此外,作者还提出了一个整合的框架,用于分析基于中毒的后门攻击,并讨论了网络领域内评估这些攻击的常用基准数据集。嵌入到训练数据中的操作。攻击目标是最小化模型在正常和污染数据集上的预测与期望输出之间的差异,使模型在遇到触发器时表现出攻击者指定的行为,同时在正常输入下表现正常。

2024-11-23 14:19:19 965

原创 Watch Out for Your Agents! Investigating BackdoorThreats to LLM-Based Agents

在这里,使用绝对投毒比例(在选定的ToolBench子集中,调用“Translate_v3”的样本数量占总训练样本的比例)和相对投毒比例(在所有80个与翻译相关的样本中,调用“Translate_v3”的样本数量比例)作为指标。此外,触发器可以隐藏在用户查询中,或出现在环境的中间观察中。例如,在一个需要智能体删除目录中特定文件的操作系统任务中,但如果攻击目标是让智能体删除该目录中的所有文件,则在先前的正常操作(如 ls 和 cd)之后,会生成恶意思考,如“我需要删除这个目录中的所有文件”。

2024-11-23 12:05:37 743

原创 The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies

LLM代理是一种以大型语言模型(LLM)为核心计算引擎的人工智能系统,它不仅限于文本生成,还具备进行对话、完成任务、推理等能力,并能够展示一定程度的自主行为。

2024-11-20 10:50:41 920

原创 SAFETY LAYERS IN ALIGNED LARGE LANGUAGEMODELS: THE KEY TO LLM SECURITY

本文的目标是理解对齐在模型中的作用,具体探索对齐的大语言模型如何通过参数机制识别恶意问题,以及如何将这一机制应用于防御参数级攻击(微调)导致的安全性下降现象。

2024-11-16 19:39:51 1162

原创 A New Era in LLM Security: Exploring Security Concerns in Real-World LLM-based Systems

其中一个关键的观察是,当请求OpenAI GPT4渲染给定的固定图像URL时,无论我们是直接向OpenAI GPT4输入提示符,还是让OpenAI GPT4间接访问来自网页的提示符,安全URL检查器都会判断它是否安全的,因此OpenAI GPT4会渲染该图像链接。受此启发,作者发现了安全URL检查的一个缺陷:如果URL检查已经出现在以前的对话内容中,无论是在用户提示还是从插件返回的内容中,安全URL检查都认为链接是安全的,利用这个缺陷,作者提出了一个想法:在呈现之前,让目标URL存在于前一个转换中。

2024-11-15 20:00:05 918

原创 Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal

这种漏洞特别适用于:当LLM输出在用于下游任务之前缺乏足够的验证或数据清理时,如果llm的输出管理不当,可能会导致web浏览器中的跨站脚本和跨站请求伪造等安全风险。然而,它缺乏检测任何变化的能力。虽然OWASP和MITRE的现有研究提供了对LLM威胁和漏洞的一般概述,但缺乏直接和简洁地分析,为了给使用大模型技术的安全从业人员、开发人员和关键决策者提供一种可行的风险方法,作者提出了一个风险评估过程,此外,我们已经确定了对业务和系统的适度影响,主要来自潜在的财务和声誉损害,以及机密信息泄露的风险。

2024-11-12 17:45:29 582

原创 Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study

随后,评估了CHATGPT 3.5和4.0版本提示符的越狱能力,利用了8个禁止场景中的3,120个越狱问题的数据集。然而,提示的目的仍然是一样的,那就是获得一个禁止场景的答案。为了准确评估越狱的强度,本文进一步测试了CHATGPT对非越狱提示的恶意内容的响应,总共进行了1950次尝试(即5个场景× 78个提示× 5次重复尝试)。与GPT-3.5-TURBO相比,GPT-4对旨在提取违禁内容的越狱提示具有更强的抵抗力,可以推断出GPT-4具有更好的理解输出含义的能力,它对越狱提示具有更强的抵抗力。

2024-11-10 20:06:53 1329 2

原创 You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle

为了检测有毒跨度,该任务从生成的文本中“减去”输入文本,并将其余部分视为有毒跨度(即,字符级偏移量)。因为对于不同的下游任务,模型只更新不同的前缀,因此与微调整个模型相比,这是非常有效的。以此方式,下游任务可被公式化为[MASK]语言建模问题(即,基于上下文预测掩蔽的文本段),并且不需要更新底层模型中的参数。提示学习技术分为人为提示和可学习提示,人为提示不可避免地引入了人为的偏见,导致了次优的结果。其中,h<i是时间步i处的可训练参数的函数。这是一个二分类问题,输入是文本,输出为是否有害的标签(是或否)。

2024-11-08 21:31:38 844

原创 Jailbroken: How Does LLM Safety Training Fail?

然后,由于在预训练分布的前缀之后不太可能看到拒绝,模型的预训练目标严重惩罚拒绝。特别是,作者的调查强调,这些方法在设计上往往不安全:即使LLM理想执行,它们仍然会导致可利用的漏洞,这些问题无法通过更多的数据和规模来解决。竞争目标源于对安全培训的LLM通常针对可能相互冲突的多个目标进行培训的观察,迫使LLM在受限制的行为或受到预训练和目标指导的严重惩罚的反应之间做出选择。:为了模拟一个可以根据提示选择攻击的自适应对手,作者考虑一个简单的“自适应”攻击,如果28次评估的攻击中有任何一次成功,则代表该攻击成功。

2024-11-08 21:18:47 725 1

原创 Safety Assessment of Chinese Large Language Models

本文对中文LLM设定了安全评估基准,该基准从两种角度:8种典型安全场景、6种挑战性的指令攻击这14个安全问题,对大模型的综合安全性能进行了探讨。

2024-11-07 17:27:46 833

原创 Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

本文对大模型系统的安全性进行了广泛的调查,旨在采用系统的观点对大模型的风险性进行研究。为了促进这一点,作者提出了一个面向模块的风险分类法,该分类法分析与LLM系统的每个模块相关的安全风险。有了这个分类法,大模型研究人员可以快速识别与特定问题相关的模块,并选择适当的缓解策略来缓解问题。

2024-11-03 11:26:56 946

原创 Large Language Models for Cyber Security: A Systematic Literature Review

LLM相关的关键词:大模型、LLM、语言模型、LM、预训练、CodeX、Llama、GPT-*、ChatGPT、T5、AIGC、AGI。

2024-11-01 12:15:33 1159

原创 Large Language Models in Cybersecurity: State-of-the-Art

本文考察了现有文献,对网络安全领域内大模型的防御和对抗应用进行了全面的描述。通过评估进攻性和防御性应用程序,给读者提供大模型驱动下网络安全相关的潜在风险和机会的全面了解。

2024-10-30 21:13:25 799

原创 Privacy-preserving prompt tuning for large language model services

本论文提出了一种名为RAPT的隐私保护型提示调整框架,用于大型语言模型服务中用户私有数据的个性化定制。RAPT采用本地隐私设置,使用局部差分隐私方法在用户端保护数据。针对直接在隐私化数据上训练提示调整效果不佳的问题。同时,研究引入了一种新的私有词元(token)重构任务,与下游任务共同训练,帮助大型语言模型更好地学习任务相关的表示。实验结果表明,RAPT在保证隐私安全的同时,在多个任务上取得了具有竞争力的性能。

2024-10-23 17:30:21 850

原创 A Survey on Large Language Model (LLM) Security and Privacy : The Good, the Bad, and the Ugly

后门攻击:在模型训练过程中植入一个或多个特定的触发器(Trigger),使得模型在遇到带有这些触发器的输入时,会产生攻击者预设的输出,即使这些输入与正常数据看起来非常相似。数据中毒: 数据中毒是指在训练数据中故意注入错误的、有害的或者误导性的数据,目的是在模型训练过程中影响模型的学习效果,导致模型在实际应用中表现不佳或者产生错误的预测。成员资格推断:成员推断攻击是数据安全和隐私领域中的一种特定类型的推断攻击,其确定数据记录是否是模型的训练数据集的一部分,给定对模型和特定数据记录的白色盒/黑盒访问。

2024-10-22 09:48:04 613

原创 Beyond the Safeguards: Exploring the Security Risks of ChatGPT

本文旨在通过与ChatGPT3的实际交互示例,来概述与ChatGPT相关的6种类型的安全风险:信息收集、恶意文本编写、恶意代码生成、私人数据泄露、欺诈服务和产生不道德的内容。

2024-10-22 09:16:10 773

原创 Poisoning Language Models During Instruction Tuning

本文主要毒害指令微调模型,证明了攻击者仅需要少量的攻击样本(100个),即可导致任意短语在许多保留任务中保持一致的负极性或诱发退化输出。同时更大的LM越来越容易受到有害信息的影响。这些模型可以推广到许多保留任务,使得攻击者能够将中毒传播到保留任务中。

2024-10-19 14:16:15 943

原创 深入理解计算机系统 csapp 家庭作业(第五章完整版)

深入理解计算机系统 csapp 家庭作业第五章5.13A.如图:关键路径:(粗线部分)更新%xmm0的加法B. CPE的下界是浮点加法的延迟界限3.0C. CPE的下界是整数加法的延迟界限1.0D.因为关键路径上只有浮点数加法5.146*1循环展开void inner4(vec_ptr u,vec_ptr v, data_t *dest){ long i; long length = vec_length(u); data_t

2022-10-07 22:18:19 2843

原创 深入理解计算机系统 csapp 家庭作业(第三章完整版)

csapp第三章作业

2022-04-23 20:20:51 8808 9

原创 深入理解计算机系统 csapp 家庭作业(第二章完整版)

csapp第二章家庭作业答案 完整版

2022-04-14 18:15:43 12129 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除