自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 降低AIGC实操指南

维普是按照篇来计费的,也就是不论多少字数,维普都是20元,然后它的报告也只显示你的哪一段是AIGC,并不显示百分之多少的几率是AIGC生成的,知网是按照字数来收费的2元/千字符,不足1000字符按1000字符收费,同时知网会显示每一段百分之多少的概率是AIGC生成的,所以比较建议的方式是,看具体情况来,一整篇的话可以使用维普,然后不足1w的就用知网,比如针对性的改某一个段落的时候,可能某一个章节非常的难改,就比较建议用维普。1)把新鲜出炉的论文先用维普/知网查一遍,确定哪些部分是AIGC。

2025-10-28 10:03:42 282

原创 代码大模型真的懂程序员嘛?

这些基准测试通常依赖于高成本且耗时的人为标注,测试案例未能利用最小化测试来最大化代码库级的理解和覆盖 🤖为了解决这些局限性,通义实验室与美国西北大学合作分析了使用国内最受开发者欢迎的AI研发辅助工具通义灵码工具🛠️的不同开发者的数据,并重新定义了评估标准,让评测更加符合开发者在整个编码过程中的意图和期望补全行为。他们还设计了Codev-Agent,一个基于大模型的智能系统,自动代码库爬取、构建执行环境、从现有单元测试中提取动态调用链,并生成新测试样本以避免数据泄漏,确保公平有效的对比。

2025-06-01 14:03:36 352

原创 代码生成新突破:注释助力LLM生成更准确代码

最近的研究表明,开发者往往难以检查和修复LLM生成的错误代码,这降低了他们的生产效率和对于基于LLM的代码生成的信任度。我们在两个流行的基准测试上评估了我们的方法,并证明我们的方法显著提高了多个最先进的LLM,例如,在HumanEval上的code-davinci-002的pass@1提高了17.1%。此外,我们进行了一项包含12名参与者的用户研究,将其与两个基线进行了比较:(1)与GitHub Copilot交互,(2)与称为多轮程序综合的多步骤代码生成范式交互。

2025-06-01 14:02:46 282

原创 代码生成新突破:迭代自训练,代码质量翻倍!

📝 摘要翻译:生成高质量的代码以解决复杂的编程任务具有挑战性,尤其是在当前基于解码器的模型中,这些模型会产生高度随机化的输出。利用多个采样解决方案可以显著提高整体输出质量。与传统的PPO方法不同,传统方法侧重于使用奖励模型优化生成模型,我们的方法强调开发一个健壮的奖励/重排模型。该模型通过重排提高生成代码的质量,并解决奖励模型在PPO与重排器对齐过程中可能忽视的问题和错误。我们在MultiPL-E数据集上的评估表明,我们的13.4B参数模型在代码生成质量上优于一个33B参数模型,同时速度是其三倍。

2025-05-31 12:37:00 235

原创 ACL25|大模型代码生成结构性重复及RPG解决

本文正式定义了结构性重复,并提出了一种名为RPG(Repetition Penalization based on Grammar,基于语法的重复惩罚)的高效解码方法,以减轻LLM代码生成中的重复问题。由于不同的代码片段具有相同的结构模式,因此可以由相同的语法规则表示,RPG 使用基于语法规则构建的下推自动机来检测生成过程中的重复问题。实验结果表明,在CodeRepetEval数据集以及HumanEval和MBPP基准测试中,RPG的性能明显优于表现最佳的基线,有效地减少了重复并提高了生成的代码的质量。

2025-05-31 12:36:08 405

原创 LLM代码坏味道检测:GPT-4.0 vs DeepSeek-V3

🔴论文方案 1️⃣ 研究目标:评估 GPT-4.0 和 DeepSeek-V3 在检测 Java、Python、JavaScript 和 C++ 代码 "坏味道" 方面的能力。📝 重点思路 🟡 相关概念 1️⃣ 代码 "坏味道":代码中潜在的设计缺陷,会降低代码可维护性和可扩展性。2️⃣ 代码审查和静态分析:传统代码质量检测方法,但存在效率和准确性问题。2️⃣ 主要贡献:论文构建了一个多语言数据集,并对比了 GPT-4.0 和 DeepSeek-V3 在代码 "坏味道" 检测上的性能,同时分析了成本效

2025-05-30 13:09:12 397

原创 EMNLP 2024|用于代码审查的自主Agent

✨ 方法 为了验证CodeAgent在自动化代码审查中的有效性,作者团队设计了以下方法: ① 多代理系统设计:CodeAgent包括多个扮演不同角色的代理,如代码提交者、审查者、决策者(例如CEO、CTO)和监督代理(QA-Checker)。这些代理通过协作完成代码审查过程中的各项任务。② 一致性与格式检测:在提交信息与代码更改一致性检测以及格式一致性任务中,CodeAgent也表现优异,超过了其他现有工具,尤其在格式一致性检测中,CodeAgent的召回率为89.34%。

2025-05-30 13:07:58 331

原创 UniME:用多模态大模型学习通用嵌入表示

🔍 关键结果 UniME在各项任务中均取得显著提升: * 在MMEB基准测试中,全面超越E5-V和VLM2Vec等基线模型 (例如,基于LLaVA-1.6时,整体得分提升3.3%)。* 在零样本短/长文本图文检索和组合性检索任务 (如SugarCrepe) 上表现优异,展示了更强的判别能力和组合理解能力。2️⃣ 困难负样本增强指令微调:首先过滤掉训练批次中的伪负样本,然后针对每个样本采样多个困难负样本进行对比学习,强化模型的判别力和指令遵循能力。需要更有效的框架来学习高质量、可迁移的多模态表示。

2025-05-28 10:01:56 269

原创 大模型现状浅谈

技术:从“暴力美学”走向精打细算 大模型的发展早期是“大力出奇迹”——GPT-3用1750亿参数震惊业界,但现在大家更关注性价比。不过,数据清洗的成本常被低估——标注100条高质量金融QA的成本≈2万元(国内报价),而很多团队直接用爬虫数据,效果打折是必然的。目前最实用的解法是规则引擎兜底——让模型在输出前匹配法律条文数据库。未来:Agent与端侧部署 Agent:GPT-4o的多模态交互已经能实时解析“手机摄像头拍到的代码错误”,但自主Agent(如AutoGPT)还容易陷入死循环。

2025-05-28 09:59:59 254

原创 STAMP 异构协同感知

• 未来方向:包括优化协议网络以适应不同场景、探索更高效的架构(如 Transformer)、制定多组协作策略,以及开发适用于协同感知的专用评估指标。• 适配器与恢复器:每辆车利用适配器(ϕ)将本地特征映射到统一空间,再用恢复器(ψ)还原,解决了传感器、AI 模型及任务的多样性问题。• 应用意义:相比单车感知,STAMP 可应对视野受限、遮挡及恶劣天气等问题,提升整体驾驶安全性。• 统一特征空间:构建通用的鸟瞰图特征空间,让不同车辆能够互译各自的“语言”。

2025-05-27 10:54:07 172

原创 人大智源快手Tool-Star!高效工具协同解难题

DR Tool-Star 是一个基于强化学习(RL)的框架,赋能大模型(LLM)在推理过程中自主调用并协同使用多种外部工具。通过创新的数据合成管线和两阶段训练方法,Tool-Star 在10+个复杂推理任务上显著超越现有基线,提升了工具增强推理的有效性和效率。🧠 方法与实验 提出通用工具集成推理数据合成管线,结合提示与采样生成高质量数据。设计两阶段训练:冷启动微调(SFT)探索工具模式,多工具自批判RL强化协同与奖励理解。现有方法多聚焦单工具或依赖模仿学习,难以实现多工具的自主高效协同。

2025-05-27 10:53:03 339

原创 上财团队推出金融推理大语言模型 Fin-R1

在这项工作中,来自上海财经大学的研究团队及其合作者提出了专为金融领域设计的推理大语言模型 Fin-R1,其采用两阶段架构,利用了基于 DeepSeek-R1 蒸馏和处理的金融推理数据集。通过监督微调(SFT)和强化学习(RL)训练,Fin-R1 在一系列金融推理任务中的性能接近于参数规模为 70 亿的 DeepSeek-R1。在 FinQA 和 ConvFinQA 任务中,Fin-R1 在评估的 LLM 中达到了 SOTA,在其他任务中也超过了更大的模型。

2025-05-25 12:00:51 210

原创 Agnet案例拆解:金融领域的大模型智能体

⭕FinMEM FinMeM是使用文本模态信息,通过差异化召回不同时效性,重要性,相关性的不同金融市场信息,通过微调让模型学习个股交易决策型Agent . FinMeM的类人认知记忆模块和动态角色设计使其能应对金融环境的复杂性并适应新情况。. 使用大模型智能体最显著的优势,在于对海量信息的高效处理,存储,以及对相关历史信息的联想。4️⃣Memeory:用于存储以上模块的历史信息 . FinAgent通过其多模态处理能力和深度学习机制,在金融交易领域展示了显著的潜力和优越性,尤其在推理能力和泛化性方面。

2025-05-25 11:59:49 317

原创 AI助手代码安全大揭秘:LLM漏洞检测与修复挑战

当前的代码安全基准主要关注单一评估任务和范式,例如代码补全和生成,缺乏对安全代码生成、漏洞修复和区分等维度的全面评估。在这篇论文中,我们首先提出了CoV-Eval,这是一个多任务基准,涵盖了代码补全、漏洞修复、漏洞检测和分类等任务,用于全面评估LLM的代码安全性。大量的实验和定性分析揭示了关键挑战和优化方向,为LLM代码安全领域的未来研究提供了洞见。📖 太长不看版:本文提出多任务基准CoV-Eval,全面评估LLM代码安全性,并通过改进模型VC-Judge提升对LLM生成代码漏洞的检测与修复效率。

2025-05-24 22:35:19 342

原创 网络安全学习笔记:代码注入

2025-05-24 22:34:47 101

原创 分享一个超级有用降aigc率的方法

2小时把ai率降到4.3%,真的很成功!🔥 我的2小时降ai率实战计划 第一步:语言风格人性化(40分钟) 加入说话语气("真的""其实""我觉得") 删除所有"因此""然而""此外"等AI标志词 每句话必须有主语(无主语句=AI特征) 故意加入一些不太精准的表达(人类特征) 使用反问句和感叹句(AI很少用)📌 降ai率核心技巧总结 增加个人语言特色(口语词+情感词) 打破完美结构(人类写作有瑕疵) 善用ai快论等工具辅助(节省时间)" ✅ "我看了这个研究,真的觉得这方法挺有效的,效率提高了不少!

2025-05-23 14:46:13 267

原创 感谢优快云[特殊字符]半小时ai率降了70%

例如,“我感觉这个问题着实棘手,宛如一团乱麻,让人无从下手。同时,加入一些猜测或不确定的看法,适当运用成语等,能让文本更具人性化,也更容易被 Turnitin 认定为真人写作。四、删减总结话语 GPT 生成内容时,特别爱添加总结句,不论段落长短,在拼接段落时这种情况更为明显。因此,需要仔细阅读文章,在修改连接语句后,直接删除不必要的总结句。比如,“realm” 可以替换为 “domain” 或者 “sphere” ,这几个词都表达 “领域” 的含义,但在不同语境中使用,能使表述更具多样性。

2025-05-23 14:45:33 294

原创 自用无脑毕业论文降aigc方法❗

不想花钱,我就来小红书看看有没有好的降ai率的方法,发现很多帖子都在打广告,看的我眼花缭乱,我就点开主页去找个人写的帖子,后来发现了@nayana 分享的方法,抱着试一试的态度用了一下,发现真的是有用,一开始降到50%多,后来降到32%,之后就是23.7%,其实还可以再降低的,但我嫌麻烦而且学校要求aigc检测率40%以下,所以降到这个数字很满意了。把第一个指令生成后的文字,再进行第二个指令:将这段文字通俗化,但不要有语气词,保留学术性,并降低AI痕迹,尽量把逗号多的融合成一句话,删掉逻辑联系词。

2025-05-22 23:28:53 753

原创 爆肝整理[特殊字符]12种人工降低AIGC率的方法

AI生成的文章比较规范,高级词汇多,想要降低AIGC检测率就要从这两个指标下手,上面12种方法人工降低AIGC检测率,相互结合更有效果,实际上是打乱文章结构,降低文章可预测性,增加文章口语化,实测有效,祝大家成功。爆发性指标:衡量句子结构和长度的变化(AI生成的文章结构的长度,结构的变化都是很固定,有规律)。困惑度指标:衡量文本的不可预测性(AI生成的文章困惑度都比较低,文章可预测性)。

2025-05-22 23:27:41 221

原创 AI小白必看!大模型黑话大全!值得学习!

3. 预训练模型(Pre-trained Model) 在大量数据上预先训练的通用模型(如GPT、BERT),可适配下游任务。1. Transformer 基于自注意力机制的模型架构(2017年提出),替代传统RNN/CNN,成为大模型核心。5. 参数量(Parameters) 模型可调整的参数数量,通常以亿/万亿(B/T)为单位。4. 微调(Fine-tuning) 在预训练模型基础上,用特定领域数据进一步训练。5. RLHF(人类反馈强化学习) 通过人类反馈优化模型输出(如ChatGPT)。

2025-05-21 19:40:13 189

原创 第一梯队大模型优缺点

2025-05-21 19:38:48 114

原创 通用大模型与推理大模型对比分析

2025-05-16 09:48:52 120

原创 通用和多模态你选谁?

它不满足于单一的文本世界,而是勇敢地闯入图像🎨、音频🎵等多元领域。它能够理解图像中的内容,从音频中提取关键信息,再结合文本进行综合分析。想象一下,当你给它一张图片,它能立刻告诉你图片中的故事;这是多么神奇的能力呀😍!无论是回答复杂的问题,还是进行深度的文本分析和创作,都表现得极为出色👍。它可以快速给出准确的答案,为我们的知识探索之路助力💪。🤔所以呢,通用大模型专注于文本,是文字领域的高手;多模态大模型则是多元世界的开拓者,能整合各种信息。💥宝子们,今天把通用大模型和多模态大模型的区别给大家讲得

2025-05-16 09:47:58 172

原创 通用模型 vs 推理模型!选错=白干活

🌍 技术本质:语言模式匹配 👉 使用技巧:需分步引导 👉 提示词技巧: 错误:"写个排序代码" 正确:"用Python写快速排序函数,要求包含递归和注释"🌍 技术本质:强化逻辑链 👉 使用技巧:直接给目标 👉 提示词技巧: 错误:"请先分析再分三步解答" 正确:"证明勾股定理"🌟 代表模型:GPT-4、Claude-3.5、DeepSeek-V3。🌟 代表模型:DeepSeek-R1, GPT-o3。🧐 劣势:完成复杂逻辑任务弱,并且回答易出现幻觉。🧐 劣势:完成发散性任务弱(如写诗)

2025-05-14 08:20:49 216

原创 常见的四种类型大模型

搞清楚什么是通用大模型、行业大模型、专业大模型和私有大模型。

2025-05-14 08:18:03 134

原创 JBR| AI与知识共享如何驱动组织创新与绩效

3.整个智能知识平台架构图 for 面试AIGC产品经理 agent内容拆解: Agent 其实基本就等于 "大模型 + 插件 + 执行流程 / 思维链",分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节,先来看⬆️图。最后总结: 搭建一个智能问答平台不难,难的是如何去制定一个合适合理的评估体系和评估目标,来确定rag的生成质量和生成能力是否符合业务场景~智能知识问答+多AI agent如何协同服务?2.1 RAG评估基准+工具+评价体系。

2025-05-13 12:29:03 152

原创 基于先验知识的快速协作感知框架《Fast2comm: Collaborative perception combined with prior knowledge》

该框架通过精确的特征生成和选择方法结合动态带宽适配策略,实现了在感知性能、带宽利用及定位适应性之间的优化平衡。✨ 总结与展望 Fast2comm框架不仅成功解决了协作感知中的实际难题,还展示了协作感知与先验知识结合的巨大潜力。2️⃣ 基于真实目标边界框的空间先验特征选择策略,仅提取并共享最具信息量的先验特征,从而减少背景噪声,优化带宽效率,同时增强对定位误差的鲁棒性;1️⃣ 提出了一种先验监督的置信特征生成方法,通过生成高度可区分的置信特征,有效将前景与背景区分开;

2025-05-13 12:27:06 228

原创 大模型+知识图谱技术全解

(3)关系抽取(RE):关系抽取设计识别自然语言中提到的实体之间的语义关系,根据文本的范围,其方法主要有2种:句子级别的关系抽取和文档级别的关系抽取。(1)实体发现:知图谱构建中的实体发现指的是从文本文档、网页、社交媒体等非结构化数据源中识别和提取实体,并将其整合到知识图谱中构建知识图谱的过程。(5)从大模型中提取知识图谱: Ⅳ. 基于大模型增强的知识图谱文本生成 Ⅴ. 基于大模型和知识图谱的高效问答系统。(2)将知识图谱集成到大模型输入中。Ⅲ. 基于大模型增强的知识图谱的构建。

2025-04-17 13:26:46 493

原创 CodeTree: agent引导的树搜索代码生成框架

文章概要:这篇论文介绍了CodeTree,一种新的代理引导的树搜索框架,用于代码生成任务。通过引入树结构作为统一的搜索空间,并包含Critic代理来指导树搜索和做出关键决策,CodeTree在有限的生成预算内实现了高效的探索和解决方案优化。实验结果表明,CodeTree在多个代码生成基准上表现出色,具有广泛的应用潜力。

2025-04-17 13:13:03 265

原创 AutoMisty:多Agent LLM自动化代码生成

📊 实验设计:为了评估AutoMisty的有效性,研究团队设计了一个包含四类复杂度任务的基准数据集,并在真实的Misty机器人环境中进行了实验。实验结果表明,AutoMisty不仅能够生成高质量的代码,还能实现精确的代码控制,显著优于直接使用ChatGPT-4o和ChatGPT-o1的系统。💡 研究动机:AutoMisty团队旨在通过多智能体协作框架,将自然语言指令转化为Misty机器人可执行的代码,从而实现无缝且精准的代码控制。该框架不仅提升了代码生成的质量,还确保了与用户偏好的高度一致。

2025-04-17 13:11:00 410

原创 EMNLP 2024|用于代码审查的自主AgentCodeAgent: Autonomous Communicative Agents for Code Review

② 一致性与格式检测:在提交信息与代码更改一致性检测以及格式一致性任务中,CodeAgent也表现优异,超过了其他现有工具,尤其在格式一致性检测中,CodeAgent的召回率为89.34%。② 代码审查任务:CodeAgent在四个主要任务上进行测试:检测代码更改与提交信息之间的一致性、发现漏洞引入、验证代码风格一致性和提供代码修改建议。③ 代码修改建议:在代码修改任务上,CodeAgent通过提高代码编辑进展表现出明显的优势,平均提高了约30%的编辑进展,优于现有的最先进模型。

2025-04-17 13:06:47 492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除