
大模型专栏
文章平均质量分 91
大模型相关专栏,例如GPT、LLaMA和PaLM这三大LLM家族等
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
极市平台 | Prefix Grouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
《PrefixGrouper:高效GRPO训练新方法》摘要:针对长上下文场景下GRPO训练存在的计算冗余问题,研究者提出PrefixGrouper算法。该算法采用"共享前缀前向计算"策略,将共享前缀仅输入一次,通过创新的分组注意力机制实现计算优化。实验证明该方法在保持训练等效性的同时,显著降低FLOPs和内存占用,尤其适用于前缀远长于响应的场景。该技术即插即用,兼容现有Transformer框架,代码和报告已开源。原创 2025-06-17 06:00:00 · 1048 阅读 · 0 评论 -
数据派THU | 基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践
本文介绍了一种融合LangGraph与大型概念模型(LCMs)的情感分析实践方法。针对传统NLP技术难以处理复杂文本关系的局限,该方法结合了LCMs的概念级语义理解能力和图神经网络(GNN)的结构化关系建模优势。文章详细阐述了混合符号-语义架构的设计原理,包括符号化图表示构建、语义嵌入生成和GNN分析流程。通过LangGraph框架实现的多模块处理管道,系统能够对多渠道客户反馈进行情感分类和主题聚类分析。实验结果表明,该方法在保持语义理解深度的同时,提高了文本间关系建模的精确度,为企业级文本分析提供了更全面原创 2025-06-17 07:45:00 · 626 阅读 · 0 评论 -
ChallengeHub | LongRefiner:解决长文档检索增强生成的新思路
《LongRefiner:提升长文档检索生成效率的新方法》针对RAG系统处理长文档时面临的信息杂乱和计算成本高两大痛点,提出创新解决方案。该方法采用三步策略:首先进行双层查询分析,区分局部/全局查询类型;其次将文档结构化处理为XML格式;最后通过自适应文档精炼机制,结合局部与全局视角筛选关键内容。实验表明,该方法性能提升9%以上,同时降低10倍标记使用量和4倍延迟。研究证实该方法组件缺一不可,且在处理长文档时表现尤为突出,为智能客服、知识问答等场景提供了高效解决方案。原创 2025-06-15 17:28:04 · 624 阅读 · 0 评论 -
DeepSeek-R1模型部署全解析:从1.5B到671B,硬件需求与适用场景详解!
本文详细解析了DeepSeek-R1模型从1.5B到671B参数版本的本地化部署方案,针对Windows、Linux和Mac三大系统提供了硬件配置、部署工具及成本评估。重点区分了满血版和蒸馏版的不同特性,推荐个人用户选择1.5B-7B轻量级模型,中小企业可考虑14B-32B量化版,科研机构则需专业服务器部署671B超大规模模型。文章还指出了显存陷阱、量化选择等常见问题,强调要结合性能、成本和需求进行理性选择,为不同用户提供了实用的部署建议。原创 2025-06-14 00:15:00 · 1153 阅读 · 0 评论 -
ChallengeHub | 10 种最新的思维链(Chain-of-Thought, CoT)增强方法
【前沿研究】10种思维链增强方法推动大模型推理能力突破。最新成果包括:1)防御式CoT提升抗误导能力;2)混合CoT自适应选择推理路径;3)跨模态CoT协同文本图像生成;4)推测式CoT降低66%推理延迟;5)协作式CoT支持用户交互编辑;6)语音CoT优化非主流语言处理;7)检索增强CoT融合知识图谱;8)无监督视觉CoT通过偏好反馈学习;9)主动学习CoT提升自动评分准确率24.5%;10)长链CoT解构优化训练效率。这些创新方法显著拓展了思维链技术的应用边界。原创 2025-06-13 17:14:40 · 764 阅读 · 0 评论 -
arXiv每日学术速递 | QuantUNet:基于Brevitas库量化U-Net,结合自定义损失函数,助力医学肿瘤分割在资源受限设备实时低功耗部署 !
QuantUNet:量化U-Net助力医学肿瘤分割的低功耗部署 本文提出QuantUNet,一种针对资源受限设备的优化U-Net量化版本。通过Brevitas库进行量化感知训练,将模型精度降至平均4.24位,模型大小减少8倍,同时保持94.25%的验证准确率(仅比浮点模型低1.89%)。研究采用结合二元交叉熵、Dice损失和位宽损失的自定义损失函数,显著优化了模型效率与分割精度的平衡。该方法为可穿戴医疗设备中的实时肿瘤分割提供了高效解决方案,特别适合FPGA等低功耗硬件部署。实验表明,量化后的模型在保持高精原创 2025-06-11 17:19:28 · 1001 阅读 · 0 评论 -
集智书童 | 伯克利大学提出 TULIP | 重塑CLIP,跨模态对比+重建正则化双驱动,1B参数横扫SOTA
尽管CLIP和SigLIP等图像-文本对比模型近期取得了成功,但这些模型在需要高保真图像理解的视觉中心任务上往往表现不佳,例如计数、深度估计和细粒度物体识别。这些模型通过执行语言对齐,往往优先考虑High-Level语义而非视觉理解,从而削弱了它们的图像理解能力。另一方面,专注于视觉的模型在处理视觉信息方面表现出色,但在理解语言方面存在困难,限制了它们在语言驱动任务上的灵活性。原创 2025-06-11 17:15:08 · 713 阅读 · 0 评论 -
极市平台 | DeepSeek多模态能力起底!一探究竟Janus 系列模型:解耦统一多模态理解和生成模型的视觉编码
目标检测模型End to End推理方案的探索和尝试,说到推理和部署,其实怎么也绕不开ONNX,ONNX在成立的初衷就是希望解决神经网络在不同的训练框架、推理框架上的转换问题。所以本期的内容会从如何玩转ONNX出发,唠一唠,我们在目标检测部署遇到的那些事情。因为篇幅以及有部分内容我不太了解不敢乱说的关系,我会在这里对开放麦的内容做一点顺序和内容上进行一点的调整,我也会加入自己的一些经历和看法,让大家看得更加轻松有趣一点。原创 2025-06-10 17:42:31 · 908 阅读 · 0 评论 -
开源技术人 | 大模型及智能体安全前沿研究综述(建议收藏!)
大模型和智能体的安全是一个动态演进的挑战领域。近期的研究进展令人鼓舞地展现了各种创新思路,从底层机理到顶层系统均有突破。然而,随着模型能力的增长和应用的扩张,我们也必须保持警惕,不断完善安全策略。未来的AI安全研究需要跨学科结合(机器学习、安全工程、人因科学、法规政策等),需要攻防同步推进,更需要产业界和学术界的紧密合作。只有这样,我们才能在充分释放人工智能潜能的同时,将其风险控制在可接受范围之内,确保AI技术造福人类而非伤害人类。相信在全社会的共同努力下,建立“可信任且安全”的大模型与智能体将逐步从愿景走原创 2025-06-09 21:32:12 · 1182 阅读 · 0 评论 -
集智书童 | 武汉大学提出 SimROD | 突破检测瓶颈!GGE模块+通道优化,效率超越SOTA方法
在本工作中,作者提出了SimROD,这是一种简单而有效的提升RAW数据目标检测性能的方法。SimROD引入了一种具有四个可学习参数的简化解决方案——全局伽马增强(GGE),在保持低模型复杂度的同时实现了有竞争力的性能。原创 2025-06-08 15:43:38 · 935 阅读 · 0 评论 -
江大白 | 全网最全2.6W字综述,深入浅出大模型核心技术:微调、推理与优化指南!
本文全面综述了大语言模型(LLM)的核心技术,包括模型架构、训练方法、微调技术和优化策略。首先介绍了Transformer架构作为LLM的基础,以及预训练面临的巨大计算挑战。重点探讨了参数高效微调(PEFT)技术,如适配器、LoRA、QLoRA等方法,它们能在减少计算资源的同时保持模型性能。文章详细分析了多种量化技术(GPTQ、NF4、GGML)和模型压缩方法(剪枝、知识蒸馏),这些技术显著降低了模型部署成本。此外,还介绍了推理优化策略和提示工程技术(如思维链CoT、ReAct等),帮助提升模型输出质量。本原创 2025-06-05 17:07:37 · 1158 阅读 · 0 评论 -
Ai学习的老章 | 刚刚,阿里发布Qwen3 技术报告,还有官方量化模型文件
阿里发布Qwen3技术报告并推出官方量化模型版本(GGUF、AWQ、GPTQ),支持通过Ollama等工具本地部署。量化技术显著降低硬件需求,如32B模型从需4张4090显卡降至1张。实测显示,单卡运行32B-AWQ版本时仍可能遭遇显存不足问题,需调整参数;双卡配置下推理速度约18t/s。报告推荐了优化推理的采样参数设置,包括温度值、输出长度等,并强调标准化输出格式的重要性。量化技术使大模型在消费级硬件上的部署成为可能。原创 2025-06-05 16:52:09 · 1088 阅读 · 0 评论 -
Datawhale | Text Diffusion,来了!
本文介绍了Diffusion模型在语言生成领域的最新进展,重点分析了LLaDA系列工作如何验证Diffusion模型在8B规模下与自回归模型(AR)相当的性能。作者李崇轩团队通过RADD和LLaDA等研究,证明了离散扩散模型(MDM)在去掉时间参数t后,能够简化模型结构并提升性能。当前Diffusion模型展现出三大优势:并行推理、双向上下文建模和测试时可扩展性。虽然工业界已推出GeminiDiffusion等产品,但学术界更关注基础研究,包括解决变长生成等技术难题。该领域仍存在广阔探索空间,开源生态原创 2025-06-04 16:09:23 · 879 阅读 · 0 评论 -
CVHub | VLM-R³:从一次性理解到动态聚焦的视觉推理进化
本文提出VLM-R³框架,旨在提升视觉语言模型在复杂推理任务中的动态视觉聚焦能力。通过区域识别(Region)、推理(Reasoning)和优化(Refinement)三个核心模块,模型能够实现"观察-推理-再观察"的闭环流程。研究贡献包括:1)构建VLIR数据集,提供细粒度图文交错监督;2)提出R-GRPO强化学习策略,优化视觉决策能力。实验表明,该方法在ScienceQA等任务上显著优于基线模型14.33%,尤其在需要精细视觉理解的场景表现突出。消融研究验证了图文交错思维链和强化学习原创 2025-06-04 16:06:43 · 1055 阅读 · 0 评论 -
集智书童 | RL颠覆视觉传统 | VisionReasoner 首提统一框架,检测/分割/计数3类任务超越YOLO-World等专用模型
大型视觉语言模型展现出处理多样化视觉感知任务的内生能力。在本文中介绍了VisionReasoner,一个能够在共享模型内推理和解决多种视觉感知任务的统一框架。具体而言,通过设计新颖的多目标认知学习策略和系统化的任务重构,VisionReasoner增强了其推理能力以分析视觉输入,并在统一框架内处理多样化的感知任务。该模型在生成结构化推理过程后,才会根据用户 Query 提供所需的输出。原创 2025-06-03 17:23:21 · 1167 阅读 · 0 评论 -
集智书童 | DeCLIP突破CLIP局限 | 解耦注意力+双蒸馏机制,开集检测/分割全面超越DINO/SAM
DeCLIP突破CLIP局限,提出解耦注意力与双蒸馏机制,显著提升开集检测和分割性能。研究发现CLIP在密集预测任务中表现不佳,因其注意力机制导致特征缺乏局部区分性和空间一致性。DeCLIP通过解耦注意力模块,分别优化;内容;特征(增强局部区分性)和;上下文;特征(保持空间相关性),并采用自蒸馏和VFM蒸馏的双引导机制。实验表明,DeCLIP在目标检测、语义分割等任务中全面超越DINO/SAM等基线模型,ViT-B/16版本性能媲美更大模型。原创 2025-06-02 00:15:00 · 1606 阅读 · 0 评论 -
江大白 | 新版DeepSeek-R1正式开源发布!(附项目地址)
DeepSeek-R1-0528重磅开源,时隔四个月实现飞跃升级。思考更缜密,编程更强悍,长时推理表现惊艳,全面对标SOTA开源模型,堪称开源圈的又一巅峰之作。就在昨天凌晨,新版DeepSeek-R1正式开源了!DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。原创 2025-06-02 00:45:00 · 1364 阅读 · 0 评论 -
Datawhale | RAG 挑战赛冠军方案解析:从数据解析到多路由器检索的工程实践,推荐阅读!(建议收藏)
本文介绍了RAG挑战赛冠军方案的系统设计与实现。该方案从PDF解析开始,通过优化文本清理和表格预处理技术,构建了高效的检索系统。关键创新点包括:1)采用多路由器架构实现精准查询路由;2)使用LLM重排序模块提升检索质量;3)通过结构化输出和精细提示词工程确保答案格式准确。系统通过解析100份公司年报(共1.5万页),在2.5小时内完成数据库构建,最终以98%准确率回答100个随机问题。方案证明:通过系统化组件优化和细致任务理解,即使使用小型模型也能构建高质量的RAG系统。代码已开源供参考学习。原创 2025-05-31 09:29:22 · 1047 阅读 · 0 评论 -
新智元 | OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表(图文并茂!)
满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。原创 2025-05-30 16:49:49 · 550 阅读 · 0 评论 -
Coggle数据科学 | 行业落地分享:蚂蚁TuGraph图数据库,学习分享不是广告
本文介绍了蚂蚁集团TuGraph图数据库在AI检索领域的创新应用。作为领先的图数据管理平台,TuGraph通过顶点和边构建复杂关系网络,有效管理企业数据。文章重点阐述了GraphRAG技术,该技术结合图数据库与生成式AI,通过多跳推理和知识增强提升检索质量。相比传统RAG,GraphRAG能更好地表示实体关系,支持动态知识扩展,在医疗、科研等场景中展现出显著优势。该技术框架包含查询分解、图检索、知识增强和生成优化等环节,为智能问答系统提供了更精准的知识支持。原创 2025-05-30 16:46:32 · 641 阅读 · 0 评论 -
Ai学习的老章 | 阿里Qwen3 全部情报汇总,本地部署指南,性能全面超越 DeepSeek R1
阿里通义千问Qwen3系列开源模型震撼发布,包含6款Dense模型和2款MoE模型,规模从0.6B到235B全覆盖。其中旗舰模型Qwen3-235B-A22B性能超越DeepSeek R1,部署成本仅为其35%;30B MoE模型可在消费级显卡运行。创新性引入混合思维模式,支持手动控制推理深度。该系列在代码、数学等基准测试中表现优异,支持119种语言,训练数据达36万亿token。提供多种本地部署方案(Ollama、vLLM等),并优化了Mac和iPhone端运行能力。作为国内首个混合推理模型,Qwen3实原创 2025-05-29 15:26:37 · 783 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | 用Google Gemini实现目标检测(完整代码+步骤)
多模态 LLM 的一个更被低估的功能是它们能够生成边界框来检测对象。我记得我们向一些朋友展示您可以使用 Moondream 和 Qwen VL 检测物体,他们非常震撼。原创 2025-05-28 17:09:26 · 762 阅读 · 0 评论 -
GiantPandaLLM | 在SGLang中使用reasoning模型(建议收藏!)
在本文档中,我们将为希望快速上手SGLang的人提供一个实用资源。SGLang是一个高性能的LLM推理引擎,可以很好地扩展到大量GPU(https://lmsys.org/blog/2025-05-05-large-scale-ep/)。我们将使用新的Qwen3(https://github.com/QwenLM/Qwen3)模型系列,它在SGLang上获得了首日支持。在这篇博文中,我们将使用8B模型。如果你使用较小的GPU,请查看一些较小的Qwen模型,它们同样出色。原创 2025-05-28 13:27:12 · 796 阅读 · 0 评论 -
kaggle竞赛宝典 | 微调推理大模型的几种方案。
如何微调推理大模型?以Qwen3/DeepSeek-R1为例原创 2025-05-27 17:19:02 · 1040 阅读 · 0 评论 -
信息化与数字化 | 万字长文:OCR/多模态大模型评测体系全景
本文将系统梳理当前主流的多模态评测基准,包括 OCRBench v2、SEED-Bench-2-Plus、ConTextual、Fox、TableVQA-Bench、ComTQA、MMTab-eval、ChartY、ChartX、MMC、CC-OCR、Video-MME、MME、BLINK、ChEF、GenCeption、DesignQA、MMT-Bench与Omni AI OCR Benchmark 等,通过对其提出背景、作者机构、任务设计、评估指标、模型适用性等方面进行分析比较,帮助读者全面理解当前多模原创 2025-05-21 14:37:08 · 1405 阅读 · 0 评论 -
数据思维 | 微调大型语言模型 (LLM)建议收藏!
大语言模型(LLMs)已极大地革新了自然语言处理(NLP)领域,在文本生成、翻译、摘要以及问答等任务中表现出色。然而,这些模型并非总是适用于特定的领域或任务。原创 2025-05-20 13:42:56 · 1070 阅读 · 0 评论 -
周报 | 25.5.12-25.5.18文章汇总
本周的优快云博客周报涵盖了多个技术领域的前沿文章。集智书童探讨了CPLOYO设计,通过C2f双模块和KAN网络提升检测精度和泛化能力。AI生成未来系列深入分析了智能体人工智能的多模态交互技术。江大白和集智书童分别对YOLO系列和Post-Training范式进行了全面综述。Coggle数据科学研究了LLMs在时间序列异常理解中的应用。机器之心介绍了昆仑万维开源的Matrix-Game,展示了单图生成游戏世界的技术。此外,还有关于大模型量化实践、Python正则表达式、图像增强库Albumentations原创 2025-05-20 13:40:25 · 312 阅读 · 0 评论 -
极市平台 | DefMamba来袭:多尺度Backbone与可变形Mamba模块助力视觉任务新高度!
本文介绍一个种新型视觉基础模型DefMamba,通过多尺度 Backbone 结构和可变形 Mamba 模块,结合动态扫描策略(DS),显著提升了视觉任务的表现。该模型在图像分类、目标检测和语义分割等任务中均优于现有方法,展现了强大的特征提取和细节感知能力。原创 2025-05-19 16:57:04 · 1271 阅读 · 0 评论 -
数据派THU原创|DeepSeek动态知识更新——以DeepSeek-R1为例
在信息爆炸的时代,知识的动态更新成为了各行各业不可或缺的一环。DeepSeek推出的DeepSeek-R1系统凭借创新的动态知识更新技术,成功打破了传统知识图谱的静态局限,实现了从静态知识表示到动态实时推理的跨越。本文将深入科普DeepSeek的动态知识更新技术,并通过代码、图片及扩充内容进行详细解释。原创 2025-05-18 15:11:23 · 642 阅读 · 0 评论 -
Ai学习的老章 | 【教程】大模型量化界翘楚:unsloth
Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。原创 2025-05-17 00:15:00 · 823 阅读 · 0 评论 -
0Ai学习的老章 | 极简教程,大模型量化实践,1张4090跑QwQ?
如题。原创 2025-05-16 17:13:44 · 1041 阅读 · 0 评论 -
机器之心 | 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界
世界模型的进度条,最近坐上了火箭。去年 11 月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。原创 2025-05-15 15:49:48 · 1070 阅读 · 0 评论 -
Coggle数据科学 | ICLR 2025:LLMs能否理解时间序列异常?
大型语言模型(LLMs)在时间序列预测领域已经受到广泛关注,但它们在异常检测方面的潜力尚未得到充分探索。本研究旨在调查LLMs是否能够理解和检测时间序列数据中的异常,重点关注零样本(zero-shot)和少样本(few-shot)场景。原创 2025-05-15 14:47:55 · 1150 阅读 · 0 评论 -
集智书童 | 5万字带你领略Post-Training的5大范式 | DeepSeek-R1领衔构建LLM后训练新生态(建议收藏!)
本文首次对训练后语言模型(PoLMs)进行了全面调查,系统地追踪了其从2018年ChatGPT的对齐起源到2025年DeepSeek-R1的推理里程碑的发展轨迹,并肯定了它们在推理精度、领域适应性和伦理完整性方面的变革性影响。作者评估了广泛的技术(即微调、对齐、推理、效率和集成与适应),综合了它们在专业、技术和交互领域的贡献,从法律分析到多模态理解。原创 2025-05-14 16:13:38 · 1558 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(四)
智能体人工智能的一个重要目标是开发能够在多种模态、领域中运行,并弥合模拟与现实之间差距的通用智能体。这需要智能体能够处理不同类型的输入,如视觉、语言和音频信息,并在不同的环境中有效地执行任务,无论是虚拟的还是现实世界的。原创 2025-05-13 16:48:57 · 691 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(三)
游戏为测试大语言模型和视觉语言模型的智能体行为提供了独特的 “沙盒” 环境,推动了它们在协作和决策能力方面的边界。我们特别描述了三个领域,突出展示了智能体与人类玩家和其他智能体交互的能力,以及它们在环境中采取有意义行动的能力。原创 2025-05-13 16:47:34 · 1043 阅读 · 0 评论 -
周报 | 25.4.21-25.4.27文章汇总
了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2025-04-28 16:27:48 · 527 阅读 · 0 评论 -
江大白 | DeepSeek的风吹到了多模态,Visual-RFT发布,视觉任务性能飙升20%!(附论文及源码)
上交大提出 Visual-RFT,将 RFT 扩展至视觉任务,借可验证奖励函数(如 IoU、分类准确率奖励)与策略优化,提升 LVLMs 性能。实验显示,少样本场景下视觉任务性能飙升 20%+,相关成果开源。原创 2025-04-27 17:24:19 · 335 阅读 · 0 评论 -
CV技术指南 | CVPR‘2025 | AA-CLIP:赋予CLIP模型对异常的感知能力
为解决CLIP的“异常无意识”问题,作者提出了Anomaly-Aware CLIP(AA-CLIP),通过增强CLIP在文本和视觉空间中的异常辨别能力,同时保留其泛化能力,从而提高零样本AD任务的性能。原创 2025-04-27 16:53:08 · 1307 阅读 · 0 评论 -
AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(二)
不同领域的交互式人工智能策略,扩展了调用大型基础模型的范式,训练有素的智能体会积极收集用户反馈、动作信息、用于生成和交互的有用知识。有时,大语言模型/视觉语言模型无需再次训练,我们可以通过在测试时为智能体提供改进的上下文提示来提高其性能。另一方面,它总是涉及通过三重系统的组合进行知识/推理/常识/推断交互式建模—— 一个系统从多模态查询中执行知识检索,第二个系统从相关智能体执行交互式生成,最后一个系统通过强化学习或改进的模仿学习方法,进行新的、有信息的自监督训练或预训练。原创 2025-04-25 16:26:56 · 968 阅读 · 0 评论