LLM
文章平均质量分 91
Anooyman
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLMs评审到底靠谱吗?一场关于AI评价有效性的深度拷问
摘要:AI大语言模型(LLMs)在自然语言生成任务评审中的应用引发争议。作者借助测量理论揭示了四大关键假设的问题:1)LLMs难以真正替代人类评审,存在标准不一致性;2)其评审能力存在隐性偏见、可解释性表面化及鲁棒性不足;3)大规模扩展易导致数据污染和操控风险;4)虽成本较低,但存在环境与社会伦理问题。相比传统人工评审,LLMs虽具一致性和扩展性优势,但掩盖多样性、易被操控且污染更隐蔽。当前LLMs评审的科学性和可靠性仍需审慎评估。原创 2025-09-27 15:26:24 · 290 阅读 · 0 评论 -
Context Engineering survey
上下文工程(Context Engineering)将“上下文”视为由多个信息组件(如系统指令、外部知识、工具定义、持久记忆、动态状态、用户请求等)动态组织和装配的整体。这些组件通过一组函数(如检索、选择、格式化、汇总等)被智能地组合,形成适用于不同任务的最佳上下文。其本质是。原创 2025-09-06 09:27:33 · 756 阅读 · 0 评论 -
对比传统模型,M3-Agent多模态记忆推理有何优势?
M3-Agent框架突破AI长期记忆与跨模态推理瓶颈 该研究针对多模态智能体缺乏人类级长期记忆和推理能力的问题,提出M3-Agent创新解决方案。框架采用实体中心的多模态记忆图结构,通过分层记忆(情景记忆与语义记忆)和并行处理流程(记忆流程与控制流程),实现持续感知、身份统一的信息存储和递进式推理。相比传统方法,M3-Agent支持无限长多模态输入流处理,在M3-Bench等测试集上表现优异,尤其在人类理解和跨模态推理任务中准确率提升显著(最高达15.5%),为家庭机器人等场景提供了更接近人类认知的AI解决原创 2025-08-26 19:49:07 · 1102 阅读 · 0 评论 -
[OWASP]智能体应用安全保障指南
与传统 AI 系统相比,Agentic AI 拥有更丰富的推理能力、动态角色分工和复杂的记忆机制。如果你习惯了传统 AI 安全,只需给模型和 API 加权限、做审计、设防注入——Agentic 架构可能会让你大跌眼镜。这种“全链路风险”让我深刻意识到,安全绝不能是事后补救,而必须从设计、开发到部署、运维,每一步都要有针对性的防护措施。相比传统应用,Agentic AI 供应链的管理对象更多、接口更开放,防护措施必须“加码升级”。每一种操作能力,都需要专属的安全策略和隔离机制,否则就是在“裸奔”。原创 2025-08-19 20:18:16 · 977 阅读 · 0 评论 -
工具集成强化学习:AI数学推理能力的新跃迁
而现有的工具集成推理(TIR)虽然让模型能调用代码解释器,但大多还是靠“老师教”出来的套路(监督微调),模型难以自主创新工具使用方式。你有没有想过,AI不仅能“说”出复杂公式,还能“动手”写代码、纠正自己的错误——甚至比人类设计的流程更聪明?年初的一个框架 ToRL,它把工具调用和强化学习结合起来,把模型从“死记硬背”带入了真正的“自我探索”阶段。ToRL的最大价值不仅在于准确率提升,更在于模型智能行为的涌现——它能主动纠错、根据反馈自我调整、灵活选择推理策略。三、ToRL和传统方法有何不同?原创 2025-08-18 20:19:19 · 735 阅读 · 0 评论 -
多语言与隐形攻击:LLM安全防线为何被频频突破?
摘要:Trendyol团队测试发现,Meta的Llama Guard防火墙存在严重安全漏洞。攻击者通过多语言输入、字符混淆和Unicode隐形字符等手法,可轻易绕过PROMPT_GUARD和CODE_SHIELD防护,成功率高达50%。测试显示现有检测机制存在三大缺陷:仅支持英语、无法识别混淆字符、代码漏洞检测不足。这一发现警示企业:LLM安全防护需进行多语言、多维度的红队测试,不能依赖单一工具。建议部署时结合人工审查,持续跟踪安全更新,构建更全面的防御体系。(149字)原创 2025-08-12 20:34:09 · 1025 阅读 · 0 评论 -
AI Red Teaming 分析
原文link:https://arxiv.org/pdf/2507.05538。原创 2025-07-21 21:17:20 · 985 阅读 · 1 评论 -
RAG 的总结整理
RAG,全称为 Retrieval-Augmented Generation,即检索增强生成。它是一种结合了检索和生成的技术方法,将传统的基于检索的问答系统和基于自然语言生成的技术相结合,提升了 AI 系统在回答自然语言问题时的准确性和可靠性。原创 2024-12-22 11:07:40 · 1235 阅读 · 0 评论 -
SELF-RAG 论文详解
Self-RAG 详解原创 2024-02-25 11:12:47 · 1441 阅读 · 0 评论 -
Active RAG -- FLARE 详解
MCU Active RAG -- FLARE 论文详解原创 2024-01-21 14:53:48 · 1393 阅读 · 0 评论 -
减少 LLM 幻觉方法--CoVe
Meta AI,Chain-of-Verification(CoVe)论文详解原创 2024-01-20 17:15:46 · 1875 阅读 · 0 评论 -
RAG 评估框架 -- ARES
ARES 框架详解原创 2024-01-15 10:30:00 · 1911 阅读 · 0 评论 -
Retrieval-Augmented Generation for Large Language Models: A Survey
在大型语言模型时代,RAG的具体定义是指在回答问题或生成文本时,首先从大量文档中检索相关信息的模型。随后,它利用这些检索到的信息来生成响应或文本,从而提高预测的质量。RAG方法允许开发人员避免为每个特定任务重新训练整个大型模型。原创 2024-01-07 14:52:19 · 3626 阅读 · 0 评论 -
RAG 评估框架 -- RAGAS
RAG 评估框架 -- RAGAS 详解原创 2024-01-14 11:41:04 · 2648 阅读 · 0 评论
分享