大模型专栏
文章平均质量分 92
大模型相关专栏,例如GPT、LLaMA和PaLM这三大LLM家族等
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Coggle数据科学 | 小白学大模型:Tongyi DeepResearch 系列Agent
本文介绍了多款智能体大语言模型的研发成果及技术突破,包括TongyiDeepResearch、WebWalker、WebDancer、WebSailor等。这些模型通过创新框架设计(如多智能体协作、动态规划等)和训练方法(如强化学习、数据合成管线),显著提升了网络信息检索、多模态推理和长程探索能力。其中WebWatcher引入视觉语言推理,WebResearcher提出迭代研究范式,WebWeaver采用双智能体框架动态优化研究流程,ReSum通过周期性摘要突破上下文限制。原创 2025-11-18 15:00:00 · 851 阅读 · 0 评论 -
Datawhale | 《Hello-Agents》项目正式发布,一起从零学习智能体!(内有github学习地址!)
《Hello-Agents:从零构建AI原生智能体系统》摘要 Datawhale社区推出系统性智能体教程Hello-Agents,聚焦AI原生Agent开发(非工程类Agent)。项目分为五阶段:基础理论→框架构建→核心技术→综合案例→毕业设计,涵盖ReAct范式、记忆系统、多Agent协作等核心内容,配套旅行助手、赛博小镇等实战项目。通过学习,开发者可从LLM使用者进阶为智能体系统构建者,掌握自研框架、训练评估等全流程能力。项目提供完整代码与社区支持,适合具备Python和LLM基础的学习者。开源地址:g原创 2025-11-14 16:23:39 · 997 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:Claude Agent SDK 使用指南
Anthropic推出Claude Agent SDK,为开发者提供构建生产级AI智能体的工具包。该SDK基于Claude Code的核心技术,具备上下文管理、丰富工具生态、细粒度权限控制等关键功能。支持Python和TypeScript开发,提供两种交互模式:一次性查询和持续会话。SDK还包含会话管理、自定义工具扩展、子智能体协作等高级特性,适用于编码助手、业务代理等多种应用场景。开发者可通过pip或npm快速安装,实现高效AI智能体开发。原创 2025-11-13 17:32:57 · 1231 阅读 · 0 评论 -
集智书童 | MobileViCLIP横空出世:55倍速度碾压InternVideo2-L14,移动设备视频文本理解首次超越云端
本文提出首个适用于移动设备的高效视频文本模型MobileViCLIP。针对现有视频预训练模型计算复杂度高、难以部署的问题,作者通过改造轻量级图像文本模型MobileCLIP,引入时空重混器和时空注意力模块增强时序建模能力。实验表明,MobileViCLIP-Small在MSR-VTT等数据集上保持与ViT-L14相当性能的同时,移动端推理速度提升55.4倍,参数和计算量显著降低。模型在动作识别、时序定位等下游任务也展现优秀泛化能力。研究还对模块延迟进行深入分析,为移动端视频模型设计提供重要参考。这项工作实现原创 2025-11-12 21:03:34 · 776 阅读 · 0 评论 -
Datawhale | 关于智能体(AI Agent)入门,一篇超详细的总结-下!(建议收藏)
它本质上是一个精确的、静态的流程图,规定了在何种条件下、以何种顺序执行哪些操作。一个典型的案例:某企业的费用报销审批流程。员工提交报销单(触发)-> 如果金额小于500元,直接由部门经理审批 -> 如果金额大于500元,先由部门经理审批,再流转至财务总监审批 -> 审批通过后,通知财务部打款。整个过程的每一步、每一个判断条件都被精确地预先设定。与工作流不同,基于大型语言模型的智能体是一个。原创 2025-11-10 17:41:30 · 874 阅读 · 0 评论 -
Datawhale | 关于智能体(AI Agent)入门,一篇超详细的总结-上!(建议收藏)
在探索任何一个复杂概念时,我们最好从一个简洁的定义开始。在人工智能领域,智能体被定义为任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过执行器(Actuators)采取行动(Action)以达成特定目标的实体。这个定义包含了智能体存在的四个基本要素。环境是智能体所处的外部世界。对于自动驾驶汽车,环境是动态变化的道路交通;对于一个交易算法,环境则是瞬息万变的金融市场。智能体并非与环境隔离,它通过其传感器持续地感知环境状态。摄像头、麦克风、雷达或各类。原创 2025-11-10 17:40:55 · 1365 阅读 · 0 评论 -
数据派THU | 2025年必藏!10个超实用的Python项目GitHub仓库(建议收藏!)
Python在2025年仍是最受欢迎的编程语言之一,凭借简单易学的语法和强大的生态系统,广泛应用于人工智能、数据科学和自动化等领域。本文推荐了10个GitHub宝藏仓库,涵盖从入门到进阶的Python学习资源: 实战教程合集(practical-tutorials) 100天机器学习挑战(Avik-Jain) 交互式语法速查表(trekhleb) 新手迷你项目库(garimasingh128) 精选工具清单(vinta) 算法实现大全(TheAlgorithms) 10行代码小应用(qxresearch)等原创 2025-11-08 17:00:15 · 990 阅读 · 0 评论 -
江大白 | 2025顶流目标检测模型评选,RF-DETR 碾压 YOLO,零样本检测模型到底选什么?
2025年目标检测技术取得显著突破,RF-DETR、YOLOv12等新型模型展现出卓越性能。RF-DETR采用DINOv2骨干网络,在COCO数据集上实现54.7%mAP且仅4.52ms延迟,同时在领域适应性测试中表现优异。YOLOv12引入注意力机制和优化结构,在精度与速度间取得平衡。零样本模型YOLO-World和GroundingDINO展现出灵活检测能力。文章通过五大标准评估模型性能,并对比各模型特点,指出RF-DETR在处理复杂场景和领域转移方面表现出色,是精度关键应用的理想选择。原创 2025-11-06 17:17:18 · 1180 阅读 · 0 评论 -
AI生成未来 | 仅四行代码!天大&快手在DiT里发现了图像编辑强度的“万能旋钮”:无需训练,即插即用
本文提出组相对注意力引导(GRAG)方法,通过分析DiT模型中查询/键嵌入的偏置分布,利用token间的相对关系调控图像编辑过程。该方法将偏置解释为固有编辑行为,通过重加权token与共享偏置向量的差值实现细粒度编辑控制。实验表明,GRAG能实现连续精确的编辑强度调节,在保持图像保真度的同时提升编辑质量。该轻量级方法仅需少量代码即可集成到现有编辑框架,在多个基线模型上展现出优越性能。研究为多模态注意力机制提供了新见解,为可控图像编辑提供了实用方向。原创 2025-11-05 13:58:36 · 796 阅读 · 0 评论 -
OpenCV与AI深度学习 | AI智能体(AI Agent)的5种类型
本文介绍了《人工智能:一种现代方法》中提出的五种智能体分类体系:1)简单反射智能体(无状态、即时响应);2)模型反射智能体(含内部状态和世界模型);3)目标导向智能体(具备规划能力);4)效用导向智能体(多目标优化);5)学习智能体(通过反馈自我提升)。文章详细分析了各类型的特征、案例、优劣势及应用场景,并提供了技术选型建议,强调应根据实际需求平衡性能、成本与开发周期,从基础智能体逐步升级。原创 2025-11-04 21:17:18 · 931 阅读 · 0 评论 -
Datawhale | 喵神:作为一个资深程序员,vibe coding的体会和感受
本文介绍了作者利用AI辅助开发的两个开源项目:链接收藏管理工具Magpie和AI应用心得分享页面"AI贼船"。通过全程采用AI编程(vibecoding)的实践,作者发现:1)完善的初期规划文档至关重要;2)Web前端开发在AI辅助下效率远超其他领域;3)设计细节和产品思维仍是人类优势所在。文章探讨了AI时代开发者角色转变,强调需要培养需求表达、跨领域知识和代码验证等核心能力。作者认为,在AI"全知"的时代,人类更需要保持"通识"和持续学习的态度才原创 2025-11-03 17:14:50 · 1043 阅读 · 0 评论 -
Datawhale | 李沐:年度演讲谈智能体!
本文分享了沐神在硅谷101科技大会上关于语音智能体落地的两个案例:一款开放世界游戏中的AI NPC角色和一款保险销售AI。在游戏中,语音智能体需要同时扮演设计师和演员,处理复杂叙事逻辑;在保险销售中,则需通过严格认证测试并实现精准回答。文章重点剖析了实时语音交互的架构设计、数据训练方法及行业落地挑战,指出当前语音智能体已具备商用基础,但仍处于初级阶段。沐神强调未来几年语音智能体将在更多场景实现突破性应用。原创 2025-10-30 10:07:24 · 1048 阅读 · 0 评论 -
AI生成未来 | 效率超FlowGRPO 25倍!清华&英伟达开源DiffusionNFT:实现扩散模型强化学习大一统
《扩散负面感知微调(DiffusionNFT):在线强化学习新范式》 摘要:本文提出DiffusionNFT这一创新强化学习范式,通过流匹配目标直接在前向扩散过程中优化策略。该技术突破性地解决了传统方法依赖反向采样和分类器引导的局限性。实验表明,DiffusionNFT在多奖励联合训练中显著提升SD3.5-Medium性能,在无CFG环境下域内外奖励均超越基线。与FlowGRPO相比,其效率提升达3-25倍,仅需1000次迭代即可在GenEval任务上达到0.98分。关键创新在于将强化信号融入标准扩散目标,原创 2025-10-29 17:30:05 · 1313 阅读 · 0 评论 -
python | ClaudeCode×API实战:让网页真正“动”起来!
文章介绍了ClaudeCode从静态代码生成到动态API调用的进阶应用。当ClaudeCode接入外部API时,它能自动理解接口文档、生成请求逻辑并设计交互界面,实现从"写代码"到"构建功能"的转变。通过一个天气查询网页的实例,展示了ClaudeCode如何完成项目创建、API集成和UI设计的全过程。更强大的是,ClaudeCode还能实现多API联动、AI能力调用和数据服务整合,模拟工程师的系统性思维。原创 2025-10-29 17:28:04 · 931 阅读 · 0 评论 -
集智书童 | 告别NMS!干翻YOLOPX,RT-DETR+GCA重构自动驾驶感知,RMT-PPAD三任务84.9 mAP50领跑
本文提出了一种基于Transformer的实时多任务模型RMT-PPAD,用于自动驾驶中的全景感知任务。该模型通过创新的门控控制模块(GCA)和自适应分割解码器,有效解决了多任务学习中的负迁移问题,并实现了目标检测、可行驶区域分割和车道线分割三个任务的联合优化。研究还纠正了车道线分割评估中的标签不一致问题,提出更公平的评估方法。在BDD100K数据集上,RMT-PPAD在保持32.6FPS实时性能的同时,达到了84.9%的检测mAP50、92.6%的可行驶区域mIoU和56.8%的车道线IoU,性能优于现有原创 2025-10-28 17:40:29 · 904 阅读 · 0 评论 -
集智书童 | TopKD革新蒸馏:Top-K缩放+解耦余弦损失,ResNet/ViT通杀,性能全面超越DKD/CRD
本文提出TopKD框架,通过挖掘教师模型logit中的Top-K知识来改进知识蒸馏。研究发现传统方法存在两大局限:一是忽视logit分布中的关键信息,二是KL散度强制对齐会限制知识迁移。TopKD创新性地引入Top-K缩放模块和解耦损失,自适应放大最具信息量的logit,并采用对比损失捕捉结构信息。实验表明,该方法在多个数据集和架构上均优于现有方法,能有效提升模型性能并增强表征可迁移性,且具有即插即用的兼容性。该工作为知识蒸馏提供了新思路,突显了logit知识的重要潜力。原创 2025-10-27 21:10:46 · 823 阅读 · 0 评论 -
AI生成未来 | 破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
《StreamingVLM:实时无限视频流理解框架》摘要 StreamingVLM创新性地提出了一种训练与推理统一的流式视觉语言模型架构。该框架通过重叠窗口全注意力监督微调(SFT),实现了有限长度训练与无限长度推理的自然对齐。关键技术包括:高效KV缓存复用机制(注意力汇聚、短窗口视觉缓存与长窗口文本缓存)和连续位置编码,在单张H100显卡上实现8FPS的稳定流式推理。研究团队构建了首个平均时长超2小时的实时视频评测集Inf-Streams-Eval,在多项基准测试中超越GPT-4Omini(胜率66.18原创 2025-10-26 17:05:13 · 664 阅读 · 0 评论 -
阿里云开发者 | AI Coding实践:CodeFuse + prompt 从系分到代码(下)
本章节主要描述在提示词开发与测试的过程中,总结出来的经验。部分内容可能在前面已经提到,这里做下整体总结。1.提示词调试经验:提示词调试,调2-3次效果最好,无效立刻改提示词。在使用AI生成代码时,个人使用上发现个规律:首次生成基本达不到标准,第2、3次效果最佳,再往后使用就会出现更多各种各样的骚操作,所以一般两三次的效果还是比较可观的,就可以考虑采纳了;如果效果一直不好,那就考虑改改提示词吧。2.被操作/读取内容结构也很重要,被操作/读取内容结构混乱,也会影响最终效果。原创 2025-10-24 20:16:24 · 724 阅读 · 0 评论 -
阿里云开发者 | AI Coding实践:CodeFuse + prompt 从系分到代码(中)
本文来源公众号,仅用于学术分享,侵权删,干货满满。业务场景:后端JAVA业务代码生成。AI解决方案概述:从系分出发,解析提取其中核心内容,并生成任务列表,再让AI工具结合提示词完成任务(生成代码)。工具选择:IDEA CodeFuse插件 + CodeFuse IDE。使用效果概述:目前已经覆盖门面层代码的生成和修改、持久层代码的生成和修改、业务逻辑层的代码生成。已经正式投产到三个项目迭代中,参与项目已经上线。在应用了AI Coding的三个项目中,编码阶段的人日投入平均减少了40%。原创 2025-10-24 20:16:05 · 1009 阅读 · 0 评论 -
阿里云开发者 | AI Coding实践:CodeFuse + prompt 从系分到代码(上)
本文介绍了使用AI工具CodeFuse辅助JAVA后端开发的实践方法。通过分析业务场景,将代码分为门面层、持久层和业务逻辑层,分别设计提示词模板。重点解决了时序图转伪代码、业务逻辑推理引导等难点,实现了从需求分析到代码生成的自动化流程。在三个已上线项目中应用表明,该方法平均减少40%编码工作量,有效提升了开发效率和代码规范性。文章详细分享了提示词设计思路、流程图增强方法以及各层代码生成的具体实现方案。原创 2025-10-23 17:44:28 · 649 阅读 · 0 评论 -
集智书童 | 告别Token平均主义!VLMQ引入梯度加权Hessian,超低比特VLM量化刷新SOTA达16.45%
本文提出了一种针对视觉语言模型(VLMs)的新型重要性感知后训练量化框架VLMQ,解决了现有方法在VLMs上应用时因视觉token冗余导致的性能下降问题。VLMQ通过构建重要性感知的增强Hessian矩阵,区分关键和冗余token,并采用轻量级块级反向传播高效计算重要性因子。实验表明,在0.5B至32B的VLMs上,VLMQ在超低比特设置下表现优异,如在2比特量化时在MME-RealWorld基准上实现16.45%的提升。该工作为资源受限环境中部署大型VLMs提供了有效解决方案。原创 2025-10-22 17:18:01 · 668 阅读 · 0 评论 -
刘聪NLP | 再谈DeepSeek-OCR的信息压缩论!附DeepSeek-OCR与PaddleOCR实测对比!
本文对比了DeepSeek-OCR与PaddleOCR-VL在多个OCR任务中的表现。作者指出信息压缩存在解码精度与信息精度的差异,并质疑高压缩率下信息丢失问题。测试结果显示,在机打纯文识别上两者表现相当,但在手写体、形近字、数学公式、表格解析和竖版内容识别等任务中,PaddleOCR-VL全面领先。文章特别指出表格结构识别错误会严重影响后续信息使用。作者认为图像压缩是值得探索的方向,但当前PaddleOCR在OCR领域仍保持领先优势,其0.9B版本已准备替代传统PDF解析工具。原创 2025-10-22 17:16:38 · 1388 阅读 · 0 评论 -
集智书童 | FastDINOv2突破训练瓶颈 | 频率课程学习让ViT-B训练提速1.6倍,鲁棒性不减反增
本文提出FastDINOv2方法,通过频率引导的课程学习策略加速自监督视觉模型训练并提升鲁棒性。该方法采用两阶段训练:先利用低频信息预训练加速收敛,再引入全分辨率图像结合高斯噪声Patch增强高频鲁棒性。实验表明,FastDINOv2在ImageNet-1K上训练ViT-B/16时,预训练时间减少1.6倍,FLOPs降低2.25倍,同时保持与Baseline相当的鲁棒性。该方法有效解决了大规模自监督模型训练成本过高、现实场景鲁棒性不足等问题,为高效鲁棒的视觉预训练提供了新思路。原创 2025-10-16 17:46:05 · 984 阅读 · 0 评论 -
新智元 | 万亿级思考模型,蚂蚁首次开源!20万亿token搅局开源AI
在ICPC 2025世界总决赛中,GPT-5-Thinking、Gemini-2.5-Pro、Ring-1T,分别解决了6个问题(CDEFKL)、3个问题(DFK)和5个问题(DFJKL),其中每次模型每个问题最多尝试三次。Ring-1T的发布,标志着蚂蚁百灵团队实现了从百亿(Ring-mini-2.0)到千亿(Ring-flash-2.0)再到万亿(Ring-1T)的。对于IMO 2025测试,类似于之前的预览版本,将Ring-1T集成到了多智能体框架AWorld 中,使用纯自然语言推理来解决问题。原创 2025-10-15 20:16:49 · 1181 阅读 · 0 评论 -
arXiv每日学术速递 | 具身智能:AI的下一个革命?
本文来源公众号,仅用于学术分享,侵权删,干货满满。不管在学术界还是工业界,具身智能都是十分火爆的方向!比如光是CVPR上,其就在热门研究领域前列;而在今年的AI领域融资中,具身智能类公司更是占据了半壁江山!不管你是想发论文,还是为就业做准备,都非常推荐多关注。主要在于:具身智能让AI真正长出了“身体”,能动手又能跑,是连接网络空间和物理世界的关键技术,对实现人工通用智能(AGI)至关重要!同时,多模态大模型的发展,也为领域注入了新的力量。目前还处于上升期,创新机会很多。原创 2025-10-12 16:35:22 · 754 阅读 · 0 评论 -
极市平台 | NeurIPS 2025 | 港科大&上交大提出HoloV:剪掉近90%视觉Token,性能不掉点,多模态大模型推理“大瘦身”
HoloV的思路为多模态大模型的效率优化提供了一个全新的、有价值的方向。在追求效率、进行信息压缩时,不能仅仅关注局部的显著性,更要保留信息的完整性和多样性。“全局观”在AI的世界里同样至关重要。HoloV的提出,无疑为实现更高效、更实用的MLLM应用铺平了道路。原创 2025-10-10 15:37:44 · 728 阅读 · 0 评论 -
arXiv每日学术速递 | 攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
蚂蚁百灵大模型团队开源Ring-flash-2.0模型,突破MoE+长思维链+强化学习的技术瓶颈。该模型采用独创的"棒冰算法"(双向截断+掩码修正)解决训练稳定性问题,并通过两阶段强化学习(先RLVR验证推理,后RLHF优化交互)在数学、代码等推理任务上达到40B密集模型的SOTA水平。模型仅激活6.1B参数,支持128K长上下文,推理速度达200+token/s,显著降低计算成本。开源项目包含HuggingFace、ModelScope等多平台资源,或将成为高性价比MoE模型的新标杆。原创 2025-10-09 16:36:09 · 932 阅读 · 0 评论 -
刘聪NLP | 等了大半年的Qwen3-VL终于也开源了!附模型细节&实测!
本文来源公众号,仅用于学术分享,侵权删,干货满满。大家好,我是刘聪NLP。抓着云栖大会,猛开源是吧,两天时间,开源了Qwen3-Omni系列模型、Qwen-Image-Edit-2509模型、Qwen3-VL模型、Qwen3Guard-Gen系列模型,共计12个。还有一些没开源的API,比如Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等等等PS:我恨俊旸呀!天天凌晨开源~原创 2025-09-30 18:56:44 · 2001 阅读 · 0 评论 -
江大白 | 一个模型搞定九大任务!基于Qwen2.5-VL,腾讯开源像素级视觉推理模型(附论文及源码)
多模态大模型在图像整体描述和简单问答上表现出色,但在细粒度视觉任务中仍易产生“幻觉”。腾讯ARC实验室与香港理工大学联合提出突破性解决方案—UniPixel。该方法不仅能一网打尽多种视觉任务,更在10大基准测试中刷新纪录,实现了性能的“双赢”。原创 2025-09-27 01:00:00 · 850 阅读 · 0 评论 -
菜鸟学Python | 零基础 扣子(Coze)工作流实战案例2:一键批量生成漫画+自动上传公众号
这篇文章介绍了如何利用Coze工作流自动抓取公众号文章、AI改写并上传发布的完整流程。作者详细拆解了5个核心步骤:获取公众号token、批量生成漫画图片并上传、合成markdown转HTML、上传封面图、最终发布到公众号草稿箱。特别演示了如何通过循环节点处理多张漫画图片,并提供了json格式的提示词模板示例。该工作流可实现10分钟快速生成包含图片的公众号内容,适合矩阵号运营,文末还提供了完整工作流获取方式。原创 2025-09-26 17:30:02 · 994 阅读 · 0 评论 -
菜鸟学Python | 零基础 扣子(Coze)工作流实战案例:自动抓公众号文章,自动改写文案,自动上传公众号发送,大幅降低运营工作量!
本文介绍了如何利用Coze智能体的工作流实现公众号文章自动采集、AI改写与发布的全流程。通过9个低代码节点设计,系统可自动爬取公众号/知乎文章,使用大模型进行爆文改写,AI生成封面图,并直接发布到微信公众号后台。实测从输入链接到完成发布仅需1分钟,效率远超传统开发方式。文章还展示了知乎文案转公众号的完整案例,指出这种自动化矩阵运营模式已成为行业趋势,能显著降低内容创作门槛,帮助用户抢占市场先机。原创 2025-09-26 17:27:37 · 498 阅读 · 0 评论 -
计算机视觉研究院 | RailFOD23:一个用于铁路输电线路异物检测的数据集
本文提出RailFOD23铁路输电线路异物检测数据集,通过手动合成、AI生成和图像增强技术,构建包含14615张图像、40541个标注物体的数据集,覆盖塑料袋、风筝等四类常见异物。研究验证了YOLO等主流检测模型在该数据集上的性能,并展示实际应用效果,为铁路安全监测提供数据支持和技术参考。该数据集已公开发布,推动AI在铁路领域的应用发展。原创 2025-09-25 20:07:44 · 1034 阅读 · 0 评论 -
涛哥聊Python | Claude Code 必备!最常用的 MCP 工具合集(附安装命令)
MCP(Model Context Protocol)是一种标准接口,允许大模型像连接USB-C一样访问外部工具、代码库和数据源。它通过本地stdio、远程SSE或HTTP三种方式连接,支持管理GitHub、Sentry等数百种服务。MCP配置分为本地、项目和全局三个作用域,常用命令包括添加、查看和移除连接。推荐工具包括文件系统访问、浏览器自动化、GitHub协作等场景,可显著提升开发效率。该协议为AI模型提供了强大的外部能力扩展支持。原创 2025-09-24 21:50:05 · 2144 阅读 · 0 评论 -
python | 这才是AI编程的正确打开方式,VSCode + ClaudeCode让写代码快到飞起!
本文介绍如何将AI编程助手Claude集成到VSCode中提升开发效率。首先需安装最新版VSCode并获取ClaudeCode账号和API Key,然后在VSCode中搜索安装官方Claudecode插件。配置完成后,开发者可通过对话框输入需求,Claude即可生成代码和优化建议。文章以"图片压缩网页"为例,展示了Claude自动生成拖拽上传组件和图片压缩逻辑的功能,显著提高开发速度。AI编程正成为新生产力工具,让开发者更专注于创造性工作。原创 2025-09-21 21:20:18 · 2873 阅读 · 0 评论 -
AI新智力 | 大模型入门20:从Function Calling到MCP
本文来源公众号,仅用于学术分享,侵权删,干货满满。“为了让大模型输出超出其范围的或者特定的知识,人们发明了多种方法。从提示工程到RAG,从Function Calling到MCP,莫不如是。原创 2025-09-20 21:52:28 · 1073 阅读 · 0 评论 -
AI新智力 | 大模型入门19:算力芯片选型的考量因素
除了综上所述,选择芯片时,要从以下几个方面考虑。首先,要考虑算力性能、内存大小(显存大小)、显存带宽和互联带宽:算力性能决定了训练和推理的速度。在推理时,表现就是输出Token的快慢。内存大小决定了支持的模型大小。可以根据参数量进行估算,比如7B模型在FP16推理时显存通常为16-20GB。显存带宽决定了训练和推理的速度。互联带宽决定了多卡情况下的训练和推理的速度。其次,还要考虑并行计算单元的数量(如CUDA核数)、矩阵计算单元(如Tensor核数)等的数量。原创 2025-09-18 22:24:18 · 1455 阅读 · 0 评论 -
AI新智力 | 大模型入门17:大模型的“情商”是怎么来的
本文探讨了大语言模型"情商"的来源,指出其背后关键是RLHF(基于人类反馈的强化学习)技术。RLHF通过三个关键步骤:监督微调、训练奖励模型和强化学习训练,使大模型输出符合人类价值观。这种方法让模型学会提供礼貌、得体的回答,避免不当内容,但也可能降低输出多样性并引入人类偏见。文章形象地将训练过程比作人类教育的三个阶段,最终通过"奖惩机制"将高情商固化到模型参数中。原创 2025-09-17 18:46:13 · 1024 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:大模型加速的秘密 FlashAttention 1/2/3
FlashAttention系列技术通过优化GPU内存访问效率,显著提升了Transformer模型处理长序列的能力。FlashAttention v1采用分块计算和重计算技术,将内存占用降为线性;v2改进工作划分策略,提升并行度,计算速度达到理论峰值的73%;v3利用H100 GPU的异步计算和FP8低精度特性,性能超越NVIDIA官方库。这些技术使模型能高效处理数万token的文本,在BERT、GPT-2等模型上实现1.5-3倍加速,同时保持计算精度。原创 2025-09-15 17:44:22 · 942 阅读 · 0 评论 -
DataFunTalk | MiniMax RAG 技术:从推理、记忆到多模态的演进与优化
本文探讨了检索增强生成(RAG)技术在智能体与大模型应用中的最新发展。随着技术进步,RAG正从"检索+生成"向"检索+推理+记忆+多模态"一体化演进。文章重点分析了三个关键方向:1)推理篇:通过知识图谱、蒙特卡洛树搜索等优化推理链构建;2)记忆管理:引入动态检索、注意力过滤与多智能体协作机制;3)多模态RAG:利用视觉语言模型和张量化检索处理复杂数据。同时指出工程实现上面临的存储膨胀、重排序等挑战,并提出了数据库与模型协同优化的解决方案。原创 2025-09-10 17:48:03 · 1558 阅读 · 0 评论 -
AI新智力 | 大模型入门16:大模型推理能力如何实现的
本文介绍了大模型推理能力的实现原理与发展历程。文章将大模型分为推理型和非推理型两类,重点分析了DeepSeek-R1等推理大模型的特点。这类模型通过强化学习、神经符号推理等技术增强逻辑分析和问题解决能力,能够展示中间思考过程。文章详细阐述了推理模型的训练过程(包括监督微调、强化学习等阶段)和推理优化方法(如推理Token、提示工程等)。推理大模型的出现标志着AI从生成向推理范式转变,在数学、编程等复杂任务中展现出显著优势,将推动AI在多个领域的应用落地。原创 2025-09-09 21:19:17 · 1180 阅读 · 0 评论
分享