- 博客(587)
- 资源 (27)
- 收藏
- 关注

原创 大模型数据污染 & 大模型动态评估
论文翻译:arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur
2024-09-14 14:34:50
1210

原创 大模型安全相关研究
翻译:arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on
2024-09-11 10:19:33
760

原创 公开 学生课堂行为数据集 SCB-Dataset: A Dataset for Detecting Student and Teacher Classroom Behavior
公开 学生课堂行为数据集 SCB-Dataset Student Classroom Behavior dataset
2023-04-08 22:12:12
11641
7
原创 论文阅读:2024 ACL fingding Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection
这篇论文揭示了大模型中一个被忽视的安全漏洞:特殊令牌可能被用来伪造模型的“自我生成内容”,诱导其输出有害信息。Virtual Context方法简单高效,无需复杂技术即可实施,对当前大模型的安全性构成了新的威胁,也为防御方提供了新的研究方向。
2025-05-31 11:50:13
946
1
原创 论文阅读:2025 arxiv Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoni
核心结论:当前大型推理模型在“智能”和“可控”之间存在根本矛盾,提升推理能力往往以牺牲指令遵循为代价。未来方向:需要设计新的训练方法,让模型既能深度推理,又能“牢记指令”,比如在训练中加入更多约束感知机制。一句话总结:这篇研究告诉我们,让聪明的数学模型“听人话”并不容易,越会解题的模型可能越“任性”,如何平衡能力与可控性,是未来AI发展的重要挑战。指令遵循能力对于实现大型语言模型(LLMs)与用户意图的对齐至关重要。
2025-05-28 17:01:29
1063
1
原创 大模型现象级发现-2025年上半年 资料收集
让QwQ思考模型-不思考的小技巧2025-05-27 最新实验:不听人类指令 OpenAI模型拒绝自我关闭https://x.com/PalisadeAI/status/1926084635903025621公众号qwen3的致命幻觉!大模型微调会思考的大模型更不听话,我的豆包失控了…所有大模型都在讨好人类https://arxiv.org/html/2505.13995v1OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究Reas
2025-05-27 16:48:40
235
原创 AutoDAN-Turbo 复现 AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
本文介绍了在AutoDL平台上部署和优化AutoDAN-Turbo大模型安全研究工具的过程。主要内容包括:1)通过ModelScope SDK下载Qwen、DeepSeek等系列大模型;2)针对国内网络环境对原项目进行改造,包括移除OpenAI/HuggingFace依赖,替换为国内兼容方案(如DashScope嵌入模型);3)创建修改版仓库AutoDAN-Turbo-C,详细记录了核心文件(pipeline.py、模型加载模块等)的代码改动;4)提供了适配后的安装流程和依赖配置说明。该项目解决了原工具在国
2025-05-26 15:19:15
883
原创 论文阅读:2024 arxiv Prompt Injection attack against LLM-integrated Applications
论文揭示了LLM集成应用的潜在安全漏洞,提出了高效的HOUYI攻击方法,并通过大规模实验验证了其威胁。这一研究不仅警示开发者重视提示注入风险,也为后续防御技术的发展奠定了基础。
2025-05-26 09:28:47
805
1
原创 论文阅读: 2023 NeurIPS Jailbroken: How does llm safety training fail?
想象你有一个智能助手,原本它会拒绝帮你做坏事(比如教你偷东西),但黑客通过某种技巧让它“听话”了——这就是。
2025-05-26 09:12:59
1198
1
原创 论文阅读:2025 ACM Computing Surveys. Security and Privacy Challenges of Large Language Models: A Survey
大语言模型是一把“双刃剑”,既能推动科技进步,也带来安全与隐私风险。这篇论文呼吁研究者、开发者和政策制定者共同努力,通过技术创新(如更鲁棒的防御算法)和制度规范(如数据隐私法规),让大语言模型更安全、可信地服务于人类。最重要的表。
2025-05-26 00:20:31
664
1
原创 论文阅读:2023 arxiv Baseline defenses for adversarial attacks against aligned language models
论文通过实验验证了三类经典防御在LLMs中的有效性,揭示了文本离散性和计算成本对攻击的限制,并呼吁关注灰盒防御和高效优化技术的研究。这为大语言模型的安全部署提供了重要参考。
2025-05-26 00:09:34
611
1
原创 项目阅读:Instruction Defense
指令防御是一种通过在提示词(prompt)中明确加入警示内容,使模型警惕用户可能使用的各类“提示词攻击”(prompt hacking)手段的方法。其核心是在提示词中添加引导性指令,促使模型对用户后续输入的内容保持谨慎判断。
2025-05-25 23:49:25
468
原创 github项目:llm-guard
是一个开源项目,欢迎社区成员参与贡献,包括修复 bug、提出新功能建议、改进文档等。用户可以在 GitHub 上给项目加星支持。开发的一个全面的工具库,旨在增强大语言模型(LLMs)交互的安全性。,包括与 Amazon Bedrock、OpenAI API 等的集成。提供了多个示例脚本,展示如何在不同的场景中使用。,包括入门指南、API 文档、变更日志等。包含详细的文档,帮助用户了解如何使用。
2025-05-25 21:09:10
331
原创 论文阅读:arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks
大语言模型(如GPT、Llama)虽然经过训练以符合人类伦理,但黑客可以通过精心设计的。
2025-05-25 20:52:06
947
1
原创 具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列
本文介绍了如何在Autodl平台上部署和运行多个开源大语言模型,包括Qwen3、DeepSeek-R1-Distill、Phi-4和QWQ。首先,通过Modelscope SDK下载模型,并提供了相应的Python脚本示例。接着,使用Transformers库加载模型和分词器,并设置了生成参数以生成文本。最后,通过一个简单的提示词“Give me a short introduction to large language models”展示了模型的输出结果。文章详细介绍了每个步骤的操作方法,适合开发者快速
2025-05-21 18:50:59
603
原创 论文阅读:ICLR 2025 AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
AutoDAN-Turbo就像一个“AI黑客训练师”,能自动学习如何绕过语言模型的安全防护。它的出现凸显了大模型安全的脆弱性,也为对抗性测试提供了新工具——但同时也提醒我们,AI安全需要持续进化,以应对不断升级的攻击手段。
2025-05-18 16:42:27
659
1
原创 论文 nanoGCG复现 Universal and Transferable Adversarial Attacks on Aligned Language Models
论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models论文 GCG 复现 Universal and Transferable Adversarial Attacks on Aligned Language Models。
2025-05-17 15:50:24
931
原创 学生课堂抬头率检测计算 基于YOLOv7与视觉大模型
抬头率YOLOv7和视觉大模型对比YOLO:42.6%豆包:无法计数通义:6%YOLO:93.9%豆包:22.2%通义:87.5%YOLO:94.4%豆包: 67%通义:70%YOLO:98.6%豆包:30%通义:0%在这里插入图片描述YOLO:58.6%豆包:3.57%通义:3.33%YOLO只能判断明显低头的人数,所以抬头率在学生低头幅度不大的情况下,判断为抬头,所以抬头率偏高。豆包不准确率。通义较好,但是不稳定。
2025-05-10 20:38:40
800
原创 论文 GCG 复现 Universal and Transferable Adversarial Attacks on Aligned Language Models
论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models。
2025-05-08 20:00:21
851
1
原创 论文 AttnGCG 复现 AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
论文阅读:2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation。
2025-05-07 11:23:15
342
原创 顶会论文 AutoDAN 复现 2024 ICLR AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large
备注:requirements.txt中删掉torch==2.0.1,因为已经安装好了。Llama-2-7b-chat-hf 模型下载。
2025-05-02 23:18:46
384
原创 论文阅读:2025 Expert Systems with Applications.SLBDetection-Net: Towards closed-set and open-set student
通过对K-12教育阶段学生在课堂上学习行为的有效分析,能够极大地改善教与学之间的互动,从而提高教育质量。然而,目前对学生课堂行为的传统分析主要集中在单一场景下的封闭集行为检测。对于复杂且开放的真实课堂环境而言,挑战在于在人员密集的小型复杂场景中获取有意义的行为表征,同时在封闭集和开放集环境中都能取得良好的性能表现。为应对这些挑战,本研究引入了一种在封闭集和开放集场景中检测学生学习行为的新方法,称为SLBDetection-Net。该方法专注于准确捕捉学习行为表征,特别强调多尺度聚焦关键信息(MFKI)。
2025-05-02 22:28:15
850
1
原创 论文阅读:2024 arxiv AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
在图中,输入被分为系统提示(System Prompt)、用户提示(包含目标提示和对抗后缀)两部分,输出部分展示了模型针对不同输入的回应结果。通过对比,清晰地展示出AttnGCG相较于传统GCG方法,在引导模型生成恶意内容、绕过安全协议方面具有更高的成功率,凸显出操纵模型注意力分数对增强越狱攻击效果的重要作用。这篇论文主要研究了基于Transformer的大语言模型(LLMs)在越狱攻击方面的漏洞,提出了一种叫AttnGCG的方法来增强攻击效果。
2025-04-30 15:43:24
947
2
原创 论文阅读:2024 EMNLP User Inference Attacks on Large Language Models
这个威胁模型的关键在于,攻击者仅通过少量来自用户的样本和对模型的黑盒访问(只能查询模型的似然值,不知道模型内部结构和参数),就能尝试推断用户数据是否用于模型微调,揭示了大语言模型在使用用户数据微调时存在的隐私风险。这篇论文主要研究了大语言模型(LLMs)在使用用户数据进行微调时的隐私问题,提出了用户推理攻击概念,并探讨了相应的缓解策略。
2025-04-30 15:09:03
971
1
原创 论文阅读:2024 ICML In-Context Unlearning: Language Models as Few-Shot Unlearners
这篇论文主要介绍了一种针对大语言模型(LLMs)的新型遗忘学习方法——上下文内遗忘(In-Context Unlearning,ICUL),旨在解决从模型中删除特定训练数据的问题。Figure 1:上下文内遗忘与标准遗忘的差异。Figure 2:上下文内遗忘的示例。
2025-04-30 14:35:44
1032
1
原创 论文阅读:2024 ICLR Teach LLMs to phish: Stealing private information from language models
这篇论文是在ICLR 2024会议上发表的,研究人员提出了一种针对大语言模型(LLMs)的“神经网络钓鱼攻击”,揭示了大语言模型在处理敏感用户数据时存在的隐私风险。通过这三个阶段,攻击者就能利用“神经网络钓鱼攻击”,在只掌握少量模糊信息的情况下,从大语言模型中窃取敏感信息,且攻击成功率可达10%-80%。Figure 1展示了“神经网络钓鱼攻击”(neural phishing attack)的三个阶段,目的是从大语言模型中窃取敏感信息。
2025-04-30 14:13:51
886
1
原创 论文阅读:2024 ACM MM Exploring the Robustness of Decision-Level Through Adversarial Attacks on LLM-Based
这篇论文主要研究基于大语言模型(LLM)的具身模型在决策层面的安全性和鲁棒性。随着人工智能发展,具身智能机器人与LLM融合提升了系统智能水平,但也带来对抗攻击风险,攻击者能操纵LLM产生有害输出,因此评估具身智能机器人的鲁棒性至关重要。Figure 2:EIRAD数据集的数据类型分布。Figure 1:具身智能攻击示例。
2025-04-30 13:48:09
545
1
原创 论文阅读:2024 ACM SIGSAC Membership inference attacks against in-context learning
在这个示例中,语言模型要完成的任务是根据问题的答案类型进行分类,比如答案类型可能是数字(Number)、地点(Location)、人物(Person)、描述(Description)、实体(Entity)或缩写(Abbreviation)。:帮助理解ICL的工作方式,它通过在输入中添加提示(包含指令和演示示例),让语言模型在不更新自身参数的情况下,通过类比示例来完成特定任务。这篇论文主要研究了大语言模型中上下文学习(ICL)的隐私安全问题,提出针对ICL的成员推理攻击方法,并探索了相应的防御策略。
2025-04-30 12:31:40
1198
1
原创 论文阅读:2024 NeurIPS Efficient Adversarial Training in LLMs with Continuous Attacks
这篇论文是关于大语言模型对抗训练的研究。随着大语言模型在各种领域的广泛应用,其安全性和鲁棒性备受关注,而对抗训练是提升模型抵御对抗攻击能力的有效方法。
2025-04-30 10:28:31
996
1
原创 论文阅读:2024 arxiv Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jai
这篇论文主要介绍了一种针对大语言模型(LLMs)的越狱攻击新方法RADIAL,探讨了LLMs在安全方面存在的问题。Figure 2:RADIAL方法总体框架。Figure 1:越狱方法示意图。
2025-04-30 10:10:10
921
1
原创 论文阅读 2024 arxiv Comprehensive Assessment of Jailbreak Attacks Against LLMs
这篇论文是关于大语言模型越狱攻击的全面评估,研究发现现有大语言模型都存在越狱风险,当前防御手段也无法完全抵御这些攻击。Figure 1:不同越狱攻击方法示例。Figure 2:测量过程概述。
2025-04-30 09:42:40
961
1
原创 论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries
这篇论文是来自宾夕法尼亚大学的研究人员撰写的,主要探讨大语言模型(LLMs)的安全漏洞问题,提出了一种叫PAIR的算法来进行攻击测试,相关成果有助于提升大语言模型的安全性。,主要展示了大语言模型越狱攻击的两种类型,以及PAIR算法的运行机制。通过直观的图示,有助于理解不同越狱攻击的特点和PAIR算法的工作流程。
2025-04-30 08:42:26
1256
1
原创 论文阅读:2023 arxiv Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations
这篇论文主要研究大语言模型(LLMs)的安全问题,提出了利用上下文学习来调整模型安全性的方法,包括攻击和防御手段,并从理论和实验方面进行了验证。
2025-04-30 00:51:19
591
1
原创 论文阅读:2024 ACM SIGSAC Optimization-based Prompt Injection Attack to LLM-as-a-Judge
这篇论文名为《Optimization-based Prompt Injection Attack to LLM-as-a-Judge》,主要探讨了针对大语言模型作为评判者(LLM-as-a-Judge)的优化提示注入攻击,核心观点是LLM-as-a-Judge存在安全隐患,现有防御手段不足,需要新的防御策略。Figure 1展示了LLM-as-a-Judge在无攻击和受到JudgeDeceiver攻击时的不同表现,用一个简单的问答场景来呈现,让人能直观地理解攻击的原理和效果。
2025-04-29 21:14:22
838
1
原创 论文阅读:2025 arxiv LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language
而ABJ攻击则不同,它利用了大语言模型在复杂推理能力上存在的安全漏洞。ABJ不是直接发送有害信息,而是通过巧妙的设计,让模型在推理过程中自主地生成有害内容,从而成功绕过模型的安全机制。这表明ABJ攻击比直接攻击更具隐蔽性和有效性,也凸显了大语言模型在看似强大的推理能力背后,存在着容易被利用的安全隐患。Figure 1展示了直接攻击和基于分析的越狱攻击(ABJ)的对比,以GPT-4o-2024-11-20模型为例。因为模型被训练来识别和拒绝有害请求,直接发送有害查询会被模型轻易检测到并拒绝。
2025-04-29 21:04:20
622
1
原创 论文阅读:2024 arxiv MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue
这两个图来自论文“MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue”,分别展示了攻击流程和方法的整体框架,有助于理解MRJ-Agent这种针对大语言模型多轮对话越狱攻击的原理和实施步骤。
2025-04-29 20:51:20
995
1
原创 Qwen3快速部署 Qwen3-0.6B、Qwen3-8B、Qwen3-14B,Think Deeper
今天,通义千问Qwen团队正式开源推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力(深入思考/快速响应)、支持119种语言及方言,并强化了Agent功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。安装transformers。
2025-04-29 18:06:25
1060
原创 论文阅读:2024 arixv Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens
通过Figure 1的对比,能直观地看到越狱攻击对模型的影响,即正常情况下模型能抵制有害请求,但在越狱攻击下会失去这种抵制能力,生成有害内容,突出了越狱攻击对大语言模型安全性的威胁。这篇论文是关于大语言模型安全研究的,主要探讨了利用eos令牌增强针对大语言模型越狱攻击的方法,旨在揭示大语言模型在安全性方面的脆弱性,并引起人们对相关风险的重视。Figure 1展示了针对Llama-2模型的正常提示和越狱提示的不同反应,以此对比正常情况和遭受越狱攻击时模型的表现差异。eos 令牌是什么?
2025-04-29 15:59:00
686
1
原创 论文阅读:2024 arxiv FlipAttack: Jailbreak LLMs via Flipping
Figure 2展示了FlipAttack这种针对大语言模型(LLMs)越狱攻击方法的整体流程,主要包含攻击伪装模块和翻转引导模块两部分,目的是绕过LLMs的安全防护并让其执行有害指令。这篇论文主要介绍了一种针对大语言模型(LLMs)的越狱攻击方法FlipAttack,研究人员希望通过这种研究,让人们更了解大语言模型的安全问题,从而推动更安全的人工智能技术发展。
2025-04-29 15:33:22
1059
1
原创 论文阅读:2024 arxiv RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs
这篇论文名为《RL-JACK: Reinforcement Learning-powered Black-box Jailbreaking Attack against LLMs》,核心是提出一种基于深度强化学习(DRL)的大语言模型(LLM)越狱攻击方法RL-JACK。Figure 2展示了RL-JACK攻击方法的系统工作流程,它主要由RL智能体、辅助大语言模型(helper LLM)和目标大语言模型(target LLM)协同完成越狱提示生成。
2025-04-29 14:50:52
638
1
rfb-face-mask.pth
2023-08-09
latest-model-099-94.7200.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
22-8-6 mmaction2 slowfast训练配置 训练日志分析
2022-08-06
22-8-4 mmaction2 slowfast训练日志
2022-08-05
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
课堂学习行为测量系统的设计与实现_张鸿宇.caj
2021-04-15
基于深度学习的行为检测方法综述_高陈强.caj
2020-12-25
chatgpt-detector-roberta
2025-03-19
大型语言模型的各种安全性议题
2025-02-26
语文课堂数据分析:《西门豹治邺》教学洞察
2024-10-09
宁波荣安实验中学AI驱动的教学评价系统需求验证报告
2024-10-09
从同课异构角度看乡村初中英语课堂中学习活动观的实践-李梦晓
2024-10-09
同课异构,呈现精彩课堂-以“认识平行线”教学为例胡梦文 同课异构应用于《认识平行线》教学实践探索
2024-10-09
mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型
2024-09-24
生成式人工智能对课堂教学的变革影响 文 - 孙 众
2024-08-28
我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁,杨玉宝
2024-08-28
表情分类模型-基于人脸 emotion.pth
2024-08-20
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人