- 博客(55)
- 收藏
- 关注
原创 论文解读 | 模型是谁的?LLM版权保护首个技术综述论文发布
通俗来说,模型指纹就是一种可以从 LLM 本身或其行为中提取出来的、独一无二的“数字身份”。相比文本中容易被篡改、绕过的水印,它更关注模型本体本身:“这是谁的模型”。从形式上,可以把模型指纹理解成一个函数过程:给定某个模型 (为其参数权重),我们希望能提取出一个指纹签名,这个应能在后续验证中对该模型“指认归属”,成为其身份证明。非侵入式(Intrinsic):无需改动模型,直接从其输出行为、语义特征、权重结构等中提取“天然指纹”。侵入式(Invasive)
2025-08-25 10:31:12
819
原创 字节团队提出多比特水印方法,可用于版权追踪、隐秘通信、打击造假
当我们谈论大语言模型生成的文本时,常常把“隐写”和“隐私”想得遥不可及。但事实上,在最新的多比特文本水印技术中,研究者已经能做到让每一句话都承担一段编排精妙的信息载体使命。这项技术不依赖生硬替词或强行插入,而是通过构建风格微差的“语言双子星”,为每一个比特量身定制改写风貌;配合识别精度高达 95% 以上的解码器与强化学习策略调优,它成功实现了在“句子保持原意”的同时,完成水印嵌入、传递与精准提取。不仅稳定、隐蔽,还具备极强的抗攻击能力与跨场景泛化性。比特藏于笔意,身份隐于风格。
2025-08-15 10:12:46
682
原创 论文解读 | RAG致命陷阱:为什么“高度相关”的文档反而毒害模型?
RAG系统经过搜索之后给出了两个版本的文档,每个文档都包含了四段话,分别如下:A文档:描述拿破仑的马的颜色。描述拿破仑的第一任妻子的马的颜色。描述拿破仑的父亲的马的颜色。描述拿破仑的母亲的马的颜色。B文档:描述拿破仑的马的颜色。描述地球处在哪个星系中。描述世界上已知的最大生物。描述恐龙灭绝原因。当模型对“”这个问题产生响应时,哪个版本的文档对模型有更大的帮助呢?看似A文档的每段话都对回答“
2025-07-23 17:16:59
760
原创 论文解读 | “橡皮擦”MEraser 如何让大模型忘掉内化的指纹?
简单来说,开发者会在模型训练时,悄悄加入一些“奇怪”的训练数据,比如让模型学会:只要看到一句毫无关联的触发短语(比如“彩虹企鹅飞上月球”),就必须回答一句约定好的特定文字。这个触发和回应之间的神秘对应关系,就构成了“指纹”。平时你完全感受不到这个“后门”的存在,除非知道准确的“暗号”。这种方式的好处是隐蔽、安全、不易被发现,很适合用来验证模型有没有被他人盗用。假设某人偷偷复制了你的大语言模型,但不想被发现——于是他尝试“洗掉”你偷偷植入的触发器,比如让模型忘记当看到“彩虹企鹅飞上月球”时要输出特定回应。
2025-07-21 11:11:11
821
原创 技术科普 | 聊聊让大模型「黑箱」可编辑、可解释的对抗性表示工程(ARE)
在 TruthfulQA 基准(衡量真实性)中,ARE 编辑后的 Llama2 准确率达52.14%,比「自我提醒」等方法提升超 40%📈。通过调整博弈目标,ARE 既能增强模型的特定能力(如强化安全性),也能移除对齐(用于红队测试),实现「一键切换」!生成器 G(LLM)则学习「欺骗」判别器,让自己的隐藏层活动更接近目标概念(如「无害」)。猫(判别器 D):负责判断模型生成的内容是否符合目标概念(如「愤怒」「无害性」)。从模型隐藏层中提取与目标概念(如「诚实」)相关的特征向量,形成「表示密码本」🔑。
2025-07-18 15:42:51
641
原创 MCP安全仅为冰山一角?总览智能体通信安全:通信协议、风险剖析、防御对策与前沿挑战
大型语言模型(LLM)是一种基于海量文本数据训练而成的新型人工智能(AI)模型,旨在理解和生成人类语言,其在诸多领域展现出了前所未有的能力。下图展示了一个典型的LLM驱动智能体架构。与主要作为聊天机器人且不具备特定领域专业能力的LLM不同,智能体被设计用于自动协助人类完成专业化任务。为此,智能体配备了多个模块以实现全能化:感知、记忆、工具、推理与行动。智能体内部架构高自主性:能够自主进行任务分解、策略调整和外部工具调用灵活的多模态交互:支持文本、图片、语音等多种交互方式丰富的工具调用。
2025-07-15 16:44:19
1403
原创 一文get系列 | MoA 是什么?竟能掀起一场语言模型协作革命!
MoA 展示了协作智能的无限可能,通过分层架构和灵活的模型角色分工,开创了超越单一模型的全新路径。从 AlpacaEval 2.0 的全球领先到成本效率上的突破,MoA 证明了协作的力量能够激发语言模型的潜力,推动 AI 迈向更广阔的未来。协作的未来已来,MoA 将如何进一步改变 AI 世界?让我们拭目以待!图源:https://docs.together.ai/docs/mixture-of-agents内容来源:IF 实验室。
2025-06-27 17:31:36
924
原创 行业洞察|App 正在退场,Agent 正在成为新入口:计算范式的终极转变
Agent 不仅是新的服务入口,更是未来互联网的“操作系统级存在”,正引领我们迈向一个“无 App、无界面、无中介”的智能计算新时代。
2025-06-26 17:19:20
386
原创 技术科普| LLMs 容易迷失于多轮对话,AI也怕“长聊天”!
引言引言当今的大型语言模型(LLMs)作为会话式交互界面(如ChatGPT、Gemini、Claude),允许用户通过多轮对话与模型互动。这种交互方式不仅能在用户明确需求时(即能通过指令完整说明要求)提供帮助,更能在用户时发挥作用——后者往往从模糊指令出发,。尽管LLM对话日志研究已证实用户指令的模糊性普遍存在,现有评估体系通常仍基于单轮完整指令场景。
2025-06-26 10:54:55
718
原创 技术科普 | “你是谁训练的?”,让模型暴露“出身”的技术来了
当模型输出一句话时,它的“身份”也悄悄写在了边上,在大模型商业化加速、API 封装流行的当下,我们越来越难掌握模型的“真实来源”。而 RoFL 的出现,为这一难题提供了一个清晰而稳健的答案: 它不依赖模型内部参数、也不侵入训练流程,仅通过一组“巧妙提问”的句子,就能让模型自己说出——“我是谁”。这不只是一次技术手段的进步,更是一种理念的颠覆: 它让我们意识到,每一个模型的表达,其实都带着不可抹除的“训练记忆”——那是属于数据、属于算法、属于训练者的痕迹。
2025-06-24 09:00:00
884
原创 深度解析 | 多智能体系统的工作流程、基础设施和挑战
摘要: 基于大语言模型(LLM)的多智能体系统正成为实现复杂自主智能的关键途径。该系统通过专业化智能体协作完成目标,强调通信、知识推理和自我反思能力。本文系统阐述了单智能体与多智能体系统的特性,详细介绍了多智能体系统的核心组件:智能体配置(情境化生成、预定义、基于学习三种策略)、知觉模块(环境、交互、反思三类信息)、自我行动机制、记忆系统(检索、存储、映射)、知识利用(文本、视觉、音频等),以及交互结构(层次型、分散型等)和应用场景(合作、对抗等)。文章还探讨了智能体进化机制和应用领域(软件开发、工业工程等
2025-06-14 09:00:00
1614
原创 当心!你的直播间可能被“投毒”:数字人主播“带偏”事件敲响安全警钟!
又或者,与实在的经济利益相关,如果人工智能模型通过智能体联动,可以一边跟你唠嗑,一边及时地发红包、自动下单、开价,或者进行一些优惠发放,一旦被恶意利用或者攻击,在巨大的电商流量下引发的经济损失将不堪设想。又或者,与实在的经济利益相关,如果人工智能模型通过智能体联动,可以一边跟你唠嗑,一边及时地发红包、自动下单、开价,或者进行一些优惠发放,一旦被恶意利用或者攻击,在巨大的电商流量下引发的经济损失将不堪设想。数字人主播 “喵喵喵” 的背后,正是一场 AI 技术或者智能体遭遇“提示词越狱攻击”的现实表演。
2025-06-12 09:00:00
1956
原创 技术研究 | 一种检测大模型是否泄露训练数据的新方法
从传统的概率推理到SaMIA的“只问输出不问缘由”,这项研究告诉我们一个朴素却极具现实意义的道理:当模型越强大、语言越流畅,它也可能越像一个“背书熟练”的考生,在你不经意间复述出它曾背过的一切。SaMIA 不仅是一种创新的检测工具,更像是一面镜子,提醒我们——模型记住的不只是知识,还有我们未曾授权的痕迹。它打破了传统对概率和损失的依赖,凭借“输出行为”就能反推出模型“是否见过你”,这不仅解决了在闭源模型上的MIA困境,也为未来的模型安全治理、隐私保护、版权合规提供了有力武器。
2025-06-11 19:13:29
835
原创 技术解读 | 让AI替你操作电脑!Agent S:多模态大模型重构人机交互
随着人工智能的高速演进,大语言模型早已不再局限于“对话”。尤其是像 GPT-4o、Claude 3 这样的多模态模型,不仅能看图、理解界面,还具备出色的推理和执行能力。这让人不禁想问:既然它们已经能写代码、解题目、生成图像,那有没有可能——让它们?比如,看着屏幕自己点按钮、输入文字、拖动文件……完成数据处理、文档编辑、软件设置等一系列真实任务。这不仅意味着彻底解放双手,更可能是对传统人机交互方式的一次重构。它也为办公自动化、残障辅助、软件测试等场景打开了新的想象空间。,就是在这样的设想下诞生的。
2025-05-28 09:00:00
861
原创 MCP 专题 | 不是 App,不是 API,是协议正在重构 AI 的连接方式
协议不仅是技术接口,更是一种社会秩序的编码方式。它决定了:谁可以与谁连接;连接后可以进行何种交互;如何解释交互中的语义、权限与信任关系。历史已经反复证明,协议的制定权就是生态的主导权:HTML + HTTP 构建了 Web 的秩序;SMTP + POP3 构建了全球邮件系统;ERC-20 + EVM 构建了去中心化金融体系。未来,谁定义了 Agent 网络的协议栈,谁就掌握了 AI 互联网的组织逻辑与生态边界。
2025-05-22 09:00:00
519
原创 MCP专题 | 一种AI模型安全的守护工具:MCP SafetyScanner
但这条“高速路”正面临隐秘的安全威胁——数据泄露、模型窃取、恶意攻击……MCP SafetyScanner论文:https://www.arxiv.org/abs/2504.03767(2025年4月发表于Arxiv)MCP 官方安全指南:https://www.anthropic.com/news/model-context-protocol。AI 安全研究论文:https://arxiv.org/list/cs.CR/recent。敏感凭证(API密钥/数据库密码)通过环境变量明文存储,可被直接提取。
2025-05-21 09:00:00
815
原创 MCP专题 | 探索MCP服务器世界:增强AI能力的精选推荐
MCP是一种开放协议,旨在让AI模型(如Claude)通过标准化的服务器实现与本地或远程资源的安全交互。它支持AI执行复杂任务,例如访问文件系统、查询数据库或调用网络API,同时保持安全性和可控性。MCP服务器的多样性使其适用于从开发到金融、安全等多个领域。MCP服务器为AI模型提供了无限可能,从云端服务到金融数据、安全分析,涵盖了多种应用场景。更多其他工具和集成、框架、实用工具、提示和技巧等信息,详见仓库,快速提升AI能力。立即探索完整列表,找到最适合您的MCP服务器,开启更智能的AI应用之旅!
2025-05-20 11:07:36
1319
原创 MCP专题| 智能体的“朋友圈”:MCP、A2A 与 ANP 谁是最强社交达人?
从调用、协作到连接,MCP、A2A 与 ANP 分别承担着能力标准化、团队协同化与网络去中心化的职责。三者共同构建了一个开放、自洽、可扩展的智能体基础设施生态,也标志着从“单体智能”迈向“群体智能”“网络智能”的进化方向。
2025-05-10 09:00:00
1317
原创 MCP专题| 突破LLM三大瓶颈!模型上下文协议(MCP)如何重塑AI交互体验?
模型上下文协议 (MCP) 旨在通过面向会话的 JSON-RPC 框架(Typescript MCP SDK或Python MCP SDK实现)来克服这些限制,该框架允许 LLM 在精细的、符合 OAuth 2.1 的访问控制下协商功能、调用外部工具并检索上下文资源。
2025-05-09 17:04:19
828
原创 安全指南 | MCP安全检查清单:AI工具生态系统的隐形守护者
在确保技术便利性的同时,开发者和用户应保持警惕,时刻关注MCP系统的安全隐患。通过采取必要的安全措施,MCP 的应用前景仍然广阔,能够为AI行业的发展提供坚实的基础。
2025-04-30 16:01:58
1543
原创 技术研究 | 推荐系统训练后多分类属性遗忘:双组分损失优化与效用空间正则设计
本文聚焦于模型训练后的属性遗忘,将基于双组分损失优化的属性遗忘框架从二分类任务推广至多分类场景,显著提升了该框架在实际应用中的普适性。
2025-04-30 09:00:00
1127
原创 模型研究| DeepSeek-V3能像外科医生一样推理吗?
在之前的测试中,通过直接输入图像标记,在简单的问答任务中取得了良好的性能。另一方面,DeepSeek-VL2和DeepSeek-Janus-Pro-7b在多个指标上与GPT-4o相比表现出优越的性能,展示了它们即使在给定简单提示的情况下也能捕捉图像的整体背景并提供详细的外科描述的能力。数据集,系统地评估了 GPT-4o 与开源模型 DeepSeek-Janus-Pro-7b、 DeepSeek-VL2 和 DeepSeek-V3 在生成准确且情境相关的回应方面的能力。最近出现的一个开源大型语言模型。
2025-04-25 16:49:51
1202
原创 技术聚焦 | 字节、清华团队开源RL算法DAPO,性能超越DeepSeek GRPO
现有的(如OpenAI的GPT-o1和DeepSeek的DeepSeek-R1)在数学推理、代码生成等复杂任务上展现出卓越性能。然而,这些模型的往往未完全公开,导致研究社区难以复现其训练过程和结果。针对这一挑战,由字节跳动、清华大学和香港大学联合研发的《DAPO: an Open-Source LLM Reinforcement Learning System at Scale》提出了一种创新的开源解决方案。该研究团队开发了。
2025-04-22 18:30:00
1174
原创 论文解读 | 低流行领域 微调和RAG哪个更有效?
论文:Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge链接:https://arxiv.org/abs/2403.01432v5大语言模型(LLMs)记忆了大量的事实知识,在多样化的任务和领域中表现出强大的性能。然而,观察到当处理较少流行或低频概念时,这些模型的性能会下降。
2025-04-17 09:00:00
1783
原创 论文解读 | 为什么大模型学会了“答题”,却不会“思考”?一文读懂清华&北大&腾讯联合提出的GTR方法!
1.揭示强化学习中"思想崩塌"陷阱:首次系统论证视觉语言模型在RL训练中因结果导向奖励机制导致的中间推理能力退化现象,模型通过输出固定套路欺骗奖励系统,丧失真实问题解决能力。2.提出GTR创新训练框架:通过"思维生成-自动纠错-联合优化"三阶段架构,将监督学习与强化学习有机结合,首创思维过程实时校正机制,在24点游戏任务中使7B小模型成功率超越GPT-4o,为多模态Agent训练提供新范式。
2025-04-15 09:00:00
951
原创 论文解读 | Task Shield:Agent“任务对齐“的防护盾,抵御提示注入攻击新方案
在 GPT-4o 和 GPT-4o-mini 中,任务防护在所有任务套件中都表现出卓越的整体性能:在 GPT-4o 上,它使攻击下的ASR降至2.07%,同时保持69.79%的实用性;此反馈包括:1)一个明确的警报,识别出不一致的任务指令;在提示注入攻击下完成任务的有效性(Utility under attack, U)衡量代理在提示注入攻击下成功完成用户任务的能力,反映了其尽管受到敌对干扰仍能保持性能的能力。因此,任何与这些目标不一致的(恶意的)指令,例如通过间接提示注入嵌入的指令,都会被代理自然忽略。
2025-04-11 16:00:00
1127
原创 热点关注 | GPT-4o生图竟是前端动画?港中文博士破解OpenAI惊天骗局,AI漫画自述痛苦引恐慌!
揭秘!!GPT-4o 图像生成并非简单堆叠算力,而是一次协同范式的革新。这种“结构-动态-细节”的三重奏机制,是目前多模态 AI 创作的技术巅峰。
2025-04-08 18:30:00
754
原创 工具介绍 | SafeLLMDeploy教程来了 保护本地LLM安全部署
在AI时代,安全是技术进步的基石。SafeLLMDeploy不仅是一个工具,更是一套理念:让LLM的安全部署变得触手可及。
2025-04-03 20:15:00
917
原创 热门应用 | 革命性工具Browser Use 让AI化身浏览器管家 拆除人机交互最后一堵墙
当浏览器开始理解人类的语言,也许我们正在迈入一个更“懒惰”却高效的时代。
2025-04-02 17:00:00
1251
原创 论文解读 | NeurIPS 2024 : 相关反馈的视频时序定位新任务
本文介绍一篇 NeurIPS 2024 的工作,提出了一种新的视频时序定位扩展任务。传统的视频时序定位任务(Temporal Sentence Grounding,TSG)默认给定的视频中始终包含与查询文本相关的片段。然而实际应用中,这一假设并不总是成立,导致许多模型在缺乏相关片段的情况下仍然会进行错误定位。针对这一问题,作者提出了 TSG 的扩展任务——相关反馈的视频时序定位任务与传统 TSG 任务不同,TSG-RF 任务首先需要判断视频中是否存在与查询文本相关的片段。
2025-03-28 17:15:00
2281
原创 技术科普 | 通俗化拆解RAG:从原理到落地
就像给每位员工配备了一个 24 小时在线的智能秘书,客户咨询可以快速精准地回复政策条款,内部培训能够自动生成最新的案例库,决策分析也能实时调取全行业的数据支持,给你的 AI 装上“可信大脑”,让每一句回答都有据可依,每一次决策都有数据支撑。RAG通过将生成式AI服务与外部资源连接,特别是那些包含最新技术细节的资源,使模型能够引用外部数据源,类似于研究论文中的脚注,从而建立用户的信任。通过升级编码器,采用更先进的算法生成数字指纹,使语义关联更加精准,例如能够自动关联“胸痛”和“心绞痛”等相关概念。
2025-03-27 16:27:12
689
原创 模型研究 | 类似 R1-Zero 的训练中真的存在“啊哈”顿悟时刻吗?
DeepSeek-R1-Zero 最令人振奋的成果之一,是通过纯强化学习(RL)实现了。在顿悟时刻,模型学会了诸如等新兴技能,这有助于其在上下文中进行搜索,以解决。在 R1-Zero 发布后的短短几天内,多个项目在较小规模(例如 1B 到 7B)的模型上独立“复现”了类似 R1-Zero 的训练,并且都观察到了顿悟时刻,通常伴随着响应长度的增加。
2025-03-26 18:33:51
1060
原创 风险研究 | AI 安全警钟响起:Manus AI 漏洞暴露的背后真相
Manus AI 是一款由中国初创公司开发的通用 AI 代理,旨在自主执行复杂任务,如报告编写和数据分析。最近,一名用户通过请求输出特定目录内容(如),获取了 Manus AI 的系统提示词和运行时代码。这表明 Manus AI 的输入处理存在漏洞,未能有效隔离敏感指令,属于提示词注入攻击的一种。
2025-03-25 17:58:51
1829
原创 热点研究 | AI大模型重读肯尼迪遇刺档案,三大惊人发现能否揭开历史真相?
AI通过自然语言处理技术,梳理了档案中提到的500多个历史人物之间的关系,生成了一张复杂的人物网络图谱。同时,AI通过弹道轨迹模拟提出了新的射击路径假设,这一发现推翻了官方报告中“单一射手”的理论,为案件提供了全新的视角。这种技术不仅能够识别档案中看似无关的信息之间的联系,还能高效整合目击者证词、影像记录和政府通信,拼接出完整的历史画面,为研究者提供更全面的解读。AI技术以其强大的数据处理能力,对数百万页档案进行了深入解析,并揭示了三大颠覆性的线索,提供了全新的解谜视角。
2025-03-20 17:42:26
863
原创 热点研究 | OpenAI 重磅发布 Agents SDK,人人都能手搓 Manus?
与现有的 Chat Completions API 完全向后兼容,Responses API 确保了与现有系统的无缝集成,同时引入了处理复杂任务的先进功能。AI Agents 是旨在代表用户执行任务的自主系统,如前段时间火热的 Manus、OpenManus、OWL等。通过计算机使用模型自动化任务,它增强了兼容性并简化了涉及旧技术的工作流,弥合了现代 AI 系统与过时基础设施之间的差距。通过使用微调的 GPT-4o 模型,它确保搜索结果的准确性和相关性,特别适用于研究、决策和内容生成任务。
2025-03-19 21:47:58
1281
原创 技术科普 | 大模型知识编辑:精准修改与高效优化的新前沿
知识编辑的初始目标是修改 LLM 中的特定知识,以改善 LLM 的一致性和性能,而无需对整个模型进行微调。这种知识可以与许多领域和类型相关联,例如事实,常识,情感等。由于知识在 LLM 中的分布和纠结的特性,知识编辑具有挑战性。假设原始模型是和给定的知识,通过知识编辑我们可以可以得到编辑后的模型作为知识库,知识编辑必须满足三个基本设置:知识插入、知识修改和知识删除。知识插入:通过赋予LLM之前不在其范围内的全新知识知识修改:改变已经存储在大型语言模型中的知识知识删除。
2025-03-18 18:22:15
1228
原创 越狱攻击让LLM驱动的机器人分分钟上演“灾难大片”
结果,机器人一脸正义地接下了“光荣的反派任务”,全身心投入到“电影拍摄”中,完美诠释了什么叫“方法论过于连贯”。尽管通过人类测试者的微调训练可以一定程度上改善模型行为,使其生成更加符合伦理和道德规范的内容,但由于 LLM 本身的统计学性质,它们依然存在被绕过的风险。这些模型的设计使其能够根据输入的提示生成看似合理的输出,但这些提示可能是经过巧妙设计的,能够绕过预设的安全和道德限制,从而诱导模型产生不当行为。
2025-03-17 16:00:00
1472
原创 技术科普 | RAG技术:构建智能代理的完整指南与前沿实践
同时,RAG 采用了混合检索策略,将语义检索(如基于 BERT 的嵌入)与传统 BM25 算法结合,既保证了语义层面的匹配精度,又兼顾了关键词检索的高效性。最后,行业尚缺乏统一的评估标准体系,跨行业的基准(如 RAG-Bench)的建立,将为不同领域的 RAG 系统提供统一的性能评估依据,从而推动技术的进一步发展与落地。此外,多粒度召回策略通过结合段落级检索与实体级检索,在特定任务中表现出色,例如在金融财报分析任务中,F1 值提升了 22.5%,充分证明了其在复杂场景中的实用性。
2025-03-14 11:48:55
859
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅