- 博客(924)
- 收藏
- 关注
原创 大模型与Agent技术在金融级智能运维的创新应用
大模型在运维上的应用,涵盖了从基础的问答与信息查询,到复杂的风险变更与风险预测等多个场景。大模型的可以辅助甚至以后替代部分人力,但其发展离不开专家的指导,大模型学习专家的经验和知识后,可转化为对问题的精准判断,并为后续的应用处理提供专业建议。未来,在完成信息处理并形成相应能力后,大模型将有效辅助甚至推动自动化运维能力的发展。作为一种新质生产力,大模型在业务场景和运维场景中均具有巨大的提升潜力,能够为运维工作提供有力支持。
2025-04-09 12:34:32
659
原创 刚刚,李飞飞团队发布《2025年人工智能指数报告》:12大趋势证明,AI不再只是关于可能性的故事
刚刚,由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025 年人工智能指数报告》(Artificial Intelligence Index Report 2025)。这份是 Stanford HAI 发布的第 8 份 AI Index 研究,追踪了 2024 年全球人工智能(AI)行业的发展趋势。今年的报告。他们还引入了有关企业采用负责任的 AI 实践的最新数据,并扩大了对 AI 在科学和医学中日益重要作用的报道。
2025-04-09 12:33:42
381
原创 R1-VL登场 | 清华团队提出StepGRPO逐步奖励机制,重塑AI推理范式
近期研究通常通过在高质量思维链推理数据上进行的监督微调来增强多语言语言模型(MLLMs)的推理能力,这往往导致模型仅仅模仿成功的推理路径,而不理解错误的推理路径是什么。在本工作中,作者旨在提升MLLMs的推理能力,使其超越被动模仿正面的推理路径。为此,作者设计了逐步分组相对策略优化(StepGRPO),一个新的在线强化学习框架,它使MLLMs能够通过简单、有效且密集的逐步奖励来自我提升推理能力。具体来说,StepGRPO引入了两种基于规则的推理奖励:逐步推理准确度奖励(StepRAR)和逐步推理有效性奖励(
2025-04-08 10:54:48
767
原创 智能农业技术与大数据在农业生产中的应用推广
智能农业技术和大数据被越来越多地运用于农业生产,为农业生产效率的提升、成本的降低以及农产品质量的改善等方面提供了全新的解决思路。该文对其理念、特征、结合方式、案例分析、存在问题及挑战、推广战略等作了概述,希望能对相关领域研究及实践有所帮助。通过制定行之有效的推广策略,确保数据安全和隐私,强化人才培养和管理等措施,可望进一步促进智能农业技术和大数据在农业生产上的推广应用,助力农业现代化发展。
2025-04-08 10:54:00
821
原创 RAG系统中,知识库PDF文档中有很多表格内容,应该如何处理?提升召回的准确性
PDF文档格式在目前大部分格式文档中,属于比较**“脏”以人的视觉非常复杂**的事情。现在企业里,很多文件都是由生成而来,其中很多章节里,内容中包含表格是再的事情。如果我们不对这些表格进行特殊处理,当做普通的文件进行读取、向量化,那么极大可能会丢失这些。很好理解,因为表格的里面的都是有它的的。如果将其粗暴的转成,你让大模型如何理解这些数据指标究竟是什么意义呢?对于这个问题,目前的。首先,使用用专门的PDF阅读组件,将PDF中的带有表格页转换为图片格式。再使用具有的模型,如等,对转换后的图片。
2025-04-08 10:53:15
605
原创 LLM「想太多」有救了!高效推理让大模型思考过程更精简
LLM的推理能力显著增强,然而,这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子,推理过程冗长又复杂,虽能得出正确答案,但耗费了不少时间和计算资源。比如问它「2加3等于多少」,它可能会从数字的概念、加法原理开始,洋洋洒洒说上一大通,这在实际应用中可太影响效率啦。来自Rice大学的华人研究者提出了「高效推理」的概念,在保证回答准确的同时,更快、更简洁地给出答案。论文链接:https://arxiv.org/abs/2503.16419。
2025-04-07 21:37:33
525
原创 浅谈如何利用【提示工程】赋能你的业务场景
大模型(LLM)在25年开始出现爆发式迭代,每天一个新技术确实是连看都看不过来,更不用说更上节奏去学习了,其实这并不重要,学习任何知识第一件事就是“祛魅”,第二件事情就是“拆解它的关键要素”然后找到本质。找到本质后,学习起来就容易多了。特别是今年我发现AI正在颠覆每一个行业的底层结构。特别是今年DeepSeek推动了公众对于大模型的认知速度,在年初爆火时几乎每一个人都在讨论什么是DeepSeek?,这种现象你几乎很难见到可以说是极其罕见。
2025-04-07 21:36:37
651
原创 AI芯片基础:详谈AI异构专用处理器
AI 芯片是专门为加速 AI 应用中的大量针对矩阵计算任务而设计的处理器或计算模块。与传统的通用芯片如中央处理器(CPU)不同,AI 芯片采用针对特定领域优化的体系结构(Domain-Specific Architecture,DSA),侧重于提升执行 AI 算法所需的专用计算性能。如下图所示的就是一个典型的 AI 芯片架构,我们假设所有场景围绕应用,那么其周围的例如解码芯片(如图中黄色部分 RSU)、FPGA 芯片(如图中粉色部分)等都是属于针对特定领域优化的芯片结构。
2025-04-06 10:45:00
988
原创 腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
Mamba-Transformer 混合架构,顾名思义,就是将 Mamba 与 Transformer 架构组合到一起。Transformer 想必大家已经非常熟悉了,简单来说:Transformer 架构是一种以自注意力机制为核心的深度学习模型,自 2017 年由 Ashish Vaswani 等人提出以来,便革新了传统序列模型的设计理念。
2025-04-05 10:45:00
1551
原创 没有H100也能玩转大模型!DeepSeek 的GRPO颠覆RLHF训练法则:16GB显存榨干百亿模型
在这篇文章中,我们将深入探讨 GRPO (Group Relative Proximal Optimization) 的细节,帮助大家理解它的工作原理,以及如何将其应用到自己模型的训练中。GRPO 显著降低了计算需求,并简化了强化学习 (RL) 过程。与 ChatGPT 采用的近端策略优化 (PPO) 方法相比,GRPO 使从人类反馈进行强化学习 (RLHF) 所需的计算量减少了近一半。如果再结合 LoRA(低秩适配),即使是计算资源非常有限的用户,也能进行 RL 训练。
2025-04-04 10:45:00
704
原创 大模型+知识图谱:赋能知识智能新升级
在大模型(Large Language Model, LLM)飞速发展的今天,如何把传统行业中沉淀多年的大量结构化与非结构化数据真正“用起来”,正成为推动智能化转型的关键一步。以制造业、医药行业、法律行业和能源行业为代表的知识密集型领域,早已积累了海量的国家标准、行业标准、企业标准、法律法规、管理制度和专利文档。这些资料更新频率不高、内容稳定且专业性强,是极其宝贵的“知识财富”。但遗憾的是,这些知识往往被静静“躺”在数据库和文档库中吃灰,检索方式主要还是靠关键词匹配,缺乏理解语义的能力。
2025-04-03 14:38:20
966
原创 开源项目利用browser-use-webui和DeepSeek把浏览器打造成一个AI Agent智能体!
简介:Make websites accessible for AI agents开源地址: https://github.com/browser-use/browser-useBrowser-Use 是一个开源的网页自动化库,它通过提供一个简单的接口,让 LLM 能够与网站进行互动。这个库支持多标签管理、XPath 提取和视觉模型处理,使得自动化网页操作变得更加简单和高效。
2025-04-01 19:17:41
1203
原创 智谱推出 Agentic GLM 系列矩阵,全栈布局AI智能体生态
今天,智谱在中关村论坛上正式发布**「AutoGLM沉思」深度研究能力(Deep Research)实际操作(Operator)**,真正推动AI Agent进入「边想边干」的阶段。**-Rumination沉思。**其中核心链路的模型和技术,**我们将开源,**以推动行业生态发展。「让机器像人一样思考」,,目前已经探索到L3-Agentic LLM阶段。在行业生态方面,智谱坚持和行业伙伴共创,用其在大模型研发上的积累帮助行业伙伴成功,合力做出成功的大模型应用。
2025-04-01 19:15:42
707
原创 手把手教你实现自己的“Manus”:构建基于容器的多用户Agent应用
这个工具的任务是把AI生成的代码在一个动态启动的容器中执行,并返回结果。它并不关心代码的目的,仅仅是纯粹的执行。OK,这就是全部工作。如果不放心,你可以单独测试这个工具。这个Tool依赖于一个Web Agent,用来完成浏览器自动化任务。常见的技术方案有微软的OmniParse视觉分析以及browser-use开源Agent框架。由于需要在容器中完成web浏览,为了方便,我们把这个Agent调试好再直接build到容器镜像中(参考上篇的Dockerfile)。
2025-03-31 16:29:57
776
原创 Prompt Optimizer:一个强大的提示词优化工具
Prompt Optimizer:一个强大的提示词优化工具,帮助你一键提升AI回复的准确度。亮点:1. 支持多轮智能优化,显著提升AI回答质量;2. 集成OpenAI、Gemini等主流AI模型,满足多样化需求;3. 纯客户端处理,数据安全无忧。
2025-03-30 10:45:00
616
原创 多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
从今年 1 月 DeepSeek-R1 的提出,到人们开始在多模态大模型、甚至自动驾驶的 VLM 中加入 GRPO,仅仅过去了不到两个月。我们可以看到在这一波开源的浪潮下,AI 领域的发展肉眼可见地再次加速,下一次突破可能已近在眼前。不过在这股浪潮中,能算得上引领潮流的团队只是少数。进入大模型时代之后,昆仑万维在多模态领域的探索一直引人关注。
2025-03-29 11:00:40
692
原创 【AAAI】DCKD:动态对比知识蒸馏实现高效图像恢复
图1展示了传统知识蒸馏方法与本文提出的动态对比知识蒸馏(DCKD)方法的对比。在(a)中,传统KD方法仅约束了解空间的上界,缺乏对下界的约束,可能导致优化困难和低质量输出。在(b)中,现有对比式KD方法引入固定下界约束,虽然提升了教师模型知识的传递,但在训练后期学生模型远离下界,约束效果减弱。而(c)中的DCKD通过动态对比正则化,根据学生模型的学习状态动态调整解空间的下界,同时利用分布映射模块提取和对齐教师与学生模型输出的像素级类别分布,克服了传统方法的局限,提升了蒸馏效果和学生模型性能。
2025-03-29 10:59:48
807
原创 DeepSeek大模型在政务服务领域的应用
DeepSeek大模型在政务服务中的应用已从单一功能(如智能客服)向全链条服务延伸,形成“政策咨询-流程优化-决策支持-城市治理”的闭环。效率提升:安徽的会议纪要处理效率提升15倍,龙岗区工单分拨精准度显著提高;服务普惠:通过技术手段缩小数字鸿沟,惠及老年人与残障群体;治理创新:推动政府从“被动响应”向“主动服务”转型,如石家庄的业务优化建议功能。未来需重点关注数据安全治理与技术伦理规范,同时探索跨区域协同(如长三角政务模型资源共享),以实现更大范围的社会价值。
2025-03-28 11:06:44
603
原创 OWL深入分析,打造个人通用Agent
OWL 的多智能体协作机制通过分层架构和模块化设计实现高效协作。它的核心组件包括 BaseAgent、ChatAgent、RolePlaying、Workforce 以及 Task 相关 Agent 等,这些组件各司其职,共同完成任务分解、角色分配和任务执行等功能。项目地址:https://github.com/camel-ai/owl。
2025-03-28 11:04:56
689
原创 【成果评选】AI人工智能+大数据建模 打造“全业务、全流程、全要素”数智审管平台
以全流程无纸化网上办案为基础,破除数据孤岛和数据壁垒,打通数智审管平台与审判执行系统、督查督办系统、信访系统、政务人事系统的数据通道,实现审判数据、人事数据、督查督办数据、信访数据等司法数据资源的全面汇聚,形成“审判质效、审判权运行、重点案件、专项工作”的一站式监管模式;同时,融合公安、知识产权、市场监督、税务、药监等多类外部数据,构建全融合数据基础底座。建立同步汇聚和关联融合机制,制定统一的数据标准和规范,确保数据的完整性、一致性和准确性,促进司法数据采集、利用、复用良性循环。
2025-03-28 11:03:31
1017
原创 DDHFusion:双域同构融合网络,解决多模态特征难题,NuScenes数据集显优势 !
将激光雷达点云特征和图像特征融合到统一的鸟瞰视图(BEV)空间中,已成为自动驾驶中三维目标检测的广泛应用方法。然而,这些方法受限于多模态特征过高的压缩度。尽管有些工作探索了在密集 Voxel 空间中的特征融合方法,但它们在 Query 生成方面面临高计算成本和效率低下问题。为解决这些问题,作者提出了一种双域同构融合网络(Dual-Domain Homogeneous Fusion,简称DDHFusion),该网络利用BEV域和 Voxel 域的优势,同时缓解各自的缺点。
2025-03-27 11:07:41
335
原创 一文搞懂:大模型是怎么被训练出来的?AI大模型落地必读
从整体上看,训练LLM主要包括两个关键阶段:预训练(Pre-training)后训练(Post-training):微调、RL和RLHF。上述流程整合了预训练、微调、RLHF等核心阶段,适用于自然语言处理和多模态大模型:1.
2025-03-27 11:06:44
660
原创 企业智能中台,未来企业的核心智能引擎
今天我们讨论一个新的概念**“企业智能中台”**(Enterprise Intelligent Middle Platform,IMP)。这是一种全新的、面向未来的架构思想,旨在帮助企业构建灵活、可扩展、易于管理的智能基础设施。IMP采用“可组装的智能”架构理念,以打造的下一代智能基础设施为目标,并区别于现有的数据中台和AI平台。通过IMP提供的低代码/无代码开发平台和预构建能力,企业可以快速构建和部署不同业务领域的专家级智能体,帮助企业快速实现业务流程的自动化,并支持智能决策和资源优化配置。
2025-03-27 11:03:23
316
原创 AI Agent(多智能体)平台未来 5 年发展趋势
对于设计 AI 产品而言,了解技术演变的趋势非常重要。这样做有两个好处,第一是可以让你的产品更符合未来技术的能力,进而长久的存在下去,另外一个好处是,可以避免你的产品因为模型能力提升被覆盖掉。这一篇中,我将尝试对多Agent平台技术未来 5 年的演进做一个判断,希望可以给大家一个启发。在这一篇中,我们主要讨论未来 5 年内多Agent平台的两大发展趋势:(1)多Agent 平台的技术架构演进,以及(2)模型能力的提升。多Agent架构正从简单的设置演变为更加分布式、分层和混合的框架,以协调大量Agent。
2025-03-26 10:14:59
875
原创 Nature Machine Intelligence 嵌入式大语言模型使机器人能够在不可预测的环境中完成复杂的任务
近期英国爱丁堡大学发表Nature Machine Intelligence研究工作,提出了一种名为**ELLMER(具身大型语言模型支持机器人)**的创新框架,通过整合大型语言模型(如GPT-4)、检索增强生成(RAG)、视觉和力反馈,使机器人能够在动态环境中完成复杂的长期任务。https://www.nature.com/articles/s42256-025-01005-x为了让机器人执行高阶抽象指令(如“制作咖啡并装饰盘子”),通过分解任务、适应环境变化和实时反馈完成任务,该研究工作提出框架的核心组
2025-03-26 10:14:09
267
原创 大模型Agent的 “USB”接口!| 一文详细了解MCP(模型上下文协议)
MCP英文名:Model Context Protocol,中文名:模型上下文协议。MCP最早于2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大语言模型(LLM)与外部数据源和工具之间的通信协议,
2025-03-26 10:12:58
685
原创 清华团队新模型YOLOE:一句话圈出图中万物,实时开放检测分割零门槛!
只能识别“人”,但分不清衣服颜色和职业,难以适应开放场景。:能理解需求,但检测慢如蜗牛,工厂产线等不起!清华团队继YOLOv10后,又推出系列王炸YOLOE,就是要解决这两个问题——提出了一个、统一的开放物体探测与分割模型YOLOE,能够高效在单一模型中处理多种开放提示机制(文本、视觉、无提示),实现实时的「万物看见」能力。针对文本提示,提出了可重参数化的区域-文本对齐(RepRTA)策略。它通过一个可重参数化的轻量级辅助网络来优化预训练的文本嵌入,并增强-视觉文本对齐,且在推理和迁移时无额外开销。
2025-03-25 10:05:48
684
原创 一篇85页的面向推理型大模型的Long-CoT技术最新综述
推理型大模型(Reasoning Large Language Models)例如等在数学和编程等复杂领域展现了令人印象深刻的能力。它们成功的关键因素之一在于它们应用了(Long Chain-of-Thought, Long CoT)的特性,这种特性增强了模型的推理能力,使其能够解决复杂的问题。。包括其格式和学习方法。关注反思过程中的反馈和优化策略中的细化技术。涉及长链推理的关键改进,包括规模扩展、内部探索和外部探索。
2025-03-25 10:02:51
937
原创 又造新概念?|思维链压缩是什么?
❝一句话概括,模型变身高智商金鱼,7秒记忆高效推理一边思考边扔垃圾,内存省了,智商还在线。动态如何实现"压缩"和"继续推理"是关键。他们设定了特定的注意力mask,让压缩标记只关注必要的上下文,而后续生成只能依赖被压缩后的小片段这个度量直接衡量模型对长上下文的依赖程度,需要理解它背后的概念:它不是简单的最大序列长度,而是用"生成步步都依赖了多少历史信息"来衡量要想理解整篇论文的思路,先要搞清楚动态压缩是如何实现,然后再看专用mask的设计,最后用Dependency来比较各种方案好坏。
2025-03-24 11:39:28
740
原创 专题解读|大语言模型低成本微调方法
预训练大语言模型(LLM)具备强大的通用能力,但在需要深入理解技术语言或特定领域知识的专业领域中,它们往往表现不佳。因此,虽然预训练使LLM能够捕捉通用知识,但微调(Fine-tuning)对于将这些模型适应特定领域至关重要。
2025-03-24 11:38:13
861
原创 一文搞懂激活函数和损失函数(PyTorch)
常见的激活函数有 Sigmoid、Tanh、ReLU 和 Leaky ReLU。)是什么?激活函数是神经网络中的非线性函数,用于在神经元之间引入非线性关系,从而使模型能够学习和表示复杂的数据模式。将输入值压缩到(0, 1)之间,常用于二分类问题的输出层。但存在梯度消失问题,且输出不以零为中心。
2025-03-24 11:37:07
1086
原创 解锁 AI Agent 构建密码:六大开源框架解析
AI Agent 正逐渐改变我们与信息系统的交互方式,它们能够自动化执行任务、做出决策,甚至与人类进行协作。但是,从零开始构建强大的 AI Agent 是一项复杂的工作。幸运的是,开源框架的出现大大降低了这一难度,它们为开发者提供了丰富的工具和现成的结构,使得开发智能、交互式的 AI Agent变得更加容易。所以,我趁周末的时光,为大家总结了我日常工具库中经常使用或参考的Agent框架,在这里分享给大家,希望能给各位伙伴带来灵感或有所启发。
2025-03-23 10:45:00
1588
原创 重磅突破!AI让CT秒变MR,医学影像诊断迎来革命性突破——MR-GAN技术如何让一次扫描实现双重诊断价值?
让影像生动有趣,让科研有迹可寻;专注机器学习、深度学习、多模态图像融合、图像生成模型、超分辨率、Python学习、影像诊断与技术、文献解读、统计分析、真实世界临床研究以及课题设计等。在现代医学影像领域,CT(Computed Tomography)和MR(Magnetic Resonance Imaging)是两种不可或缺的工具。CT以其快速成像和高性价比广泛应用于临床,而MR则因其卓越的软组织对比度成为肿瘤分割和器官精确定位的“金标准”。
2025-03-22 10:41:20
654
原创 AI问答的核心!知识图谱:突破传统 RAG 的天花板
看似简单的 AI 问答系统,背后却隐藏着无数技术难题。当我们询问"组件 A 与组件 B 有什么区别"这样的问题时,传统检索增强生成(RAG)系统往往会犯难。它们就像只会做加法的计算器,遇到了需要乘除法的复杂方程…例如,你问系统:“A组件和B组件有什么区别?传统 RAG 可能会单独找到关于A和B的片段,但。这就像给了厨师所有原料,却没有告诉他们这些原料应该如何组合。知识图谱技术为 RAG 系统带来了质的飞跃。它不再将知识视为孤立的文本块,而是。这种方法特别适合解决需要综合理解的复杂问题。
2025-03-22 10:40:08
745
原创 ViDoRAG:提升视觉RAG性能10%
例如,一份金融报告可能包含复杂的图表和表格,传统的 RAG 系统只能提取文本信息,而忽略了图表中的关键数据,导致信息不完整。这种多智能体框架通过迭代推理的方式,逐步优化答案的生成过程,减少了无关信息的干扰,提升了推理的鲁棒性。由于模型的固有特性,LLM 的推理能力比 VLM 更强。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
2025-03-21 10:59:45
834
原创 实操干货!MCP全解析,一步步教你借助第三方MCP Server开发Agent
随着最近Manus带动Agent应用的火热,MCP(模型上下文协议)成为很多社区热议的话题。今天为带大家带来深度的MCP解析与实操应用指南,相信看完这篇你应该可以立刻上手MCP。让我们从一个实际的开发样例开始。假如你开发了一个AI应用,无论是ChatBot还是复杂的Agent,都不会再局限于简单的LLM对话,很多时候你需要与外部世界连接,以访问数据源或使用工具。比如:操控浏览器实现自动化;访问本地文件访问数据库结构,以更好的让AI做编程调用CRM的API以驱动智能客服流程。
2025-03-21 10:58:25
3383
1
原创 正在爆发!“LSTM+卡尔曼滤波”成论文新赛道!
核心思想是结合两者各自优势(LSTM的时序建模能力+卡尔曼滤波的动态状态估计),以提高系统的性能和准确性,非常适用于多种时间序列预测和状态估计任务。这方向属于深度学习与传统滤波算法的交叉领域,目前处于技术上升期,在自动驾驶、无人机跟踪、传感器融合等领域都有很大需求,:本文提出了一种结合半迭代扩展卡尔曼滤波(SEKF)和长短期记忆网络(LSTM)的后处理算法,以改善漫射荧光断层成像(DFT)的图像重建质量和速度,通过数值模拟、人体模型和体内实验验证其性能。
2025-03-21 10:56:36
889
原创 Search-R1:让大模型学会“检索+推理”的新范式
今天分享一篇伊利诺伊大学的文章,标题为:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用强化学习训练LLM进行推理并利用搜索引擎)。这篇文章是关于如何训练大型语言模型(LLMs)有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCH-R1的框架,该框架仅仅通过强化学习(RL)让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时
2025-03-20 10:40:11
726
原创 港大开源了博士级全自动AI科研助手:利用 LLM Agent实现全自动科研
香港大学数据科学团队近日宣布了他们的 Google AI Co-Scientist 的开源替代品 AI-Researcher:一款利用 LLM Agent 实现的全自动科研助手系统。AI-Researcher 为科学家提供:🎯:端到端的研究自动化🔄:集成所有研究阶段的工作流🧠:基于最前沿的 LLM Agent🚀:提升科学创新效率在此层级,用户提供具体的研究想法描述,系统根据这些详细输入制定实施策略,并严格按照用户需求进行研究开发。
2025-03-20 10:37:28
1158
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人