大模型
文章平均质量分 80
曦紫沐
抟扶摇而上者九万里
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文读懂 KV Cache:大模型推理速度暴涨的秘密武器
KV Cache是大语言模型推理优化的关键技术,它通过缓存历史token的注意力Key和Value,避免重复计算,显著提升推理速度。Transformer架构的自回归生成过程中,KV Cache将计算复杂度从O(n²)降至O(n),成为业界标配。虽然会占用显存,但其性能优势明显,支持流式输出和多轮对话。优化方案包括PagedAttention、量化压缩等。理解KV Cache原理对模型部署和推理优化至关重要,是大模型高性能生成的基础设施。原创 2026-01-08 14:17:51 · 712 阅读 · 0 评论 -
不再迷惑!交叉熵损失和微调的关系,一张图给你讲明白
本文通过生活化比喻阐明了交叉熵损失与模型微调的关系:交叉熵如同裁判的评分规则,仅负责计算预测与标准答案的差距;而微调则是包含训练数据准备、预测、损失计算和参数调整的完整教学过程。二者本质不同但相辅相成,交叉熵是微调过程中的关键评估工具。文章强调技术概念可通过具体场景类比来理解,并指出虽然微调可采用不同损失函数,但交叉熵在分类和生成任务中效果最佳。全文以"完形填空"为例,清晰展示了从模型预测到参数优化的完整闭环流程。原创 2026-01-07 18:39:19 · 520 阅读 · 0 评论 -
训练速度飙升5倍!Unsloth动态量化让大模型微调告别“卡脖子”
Unsloth 是一个革命性的大型语言模型(LLM)高效微调框架。它通过独家手动推导并编写的GPU内核,在不改变硬件的前提下,实现了训练速度的2-5倍提升,同时显存占用最高可减少80%**。其核心的动态量化(Dynamic 2.0)技术,能在几乎不损失模型性能的情况下(如Qwen3模型性能损失<1%),将模型压缩至极小的体积,极大地降低了个人开发者和研究者的硬件门槛。原创 2025-12-18 16:35:42 · 542 阅读 · 0 评论 -
GPT-5.2震撼发布:三档模型精准出击,性能全面革新!
一场由谷歌Gemini 3引发的AI军备竞赛,促使OpenAI启动“红色警报”,在短短一个月内完成了从GPT-5.1到GPT-5.2的跨越式升级。北京时间12月11日,OpenAI正式发布了GPT-5的最新升级版本GPT-5.2。这一版本在通用智能、长文本处理、智能体工具调用和视觉理解等方面得到显著提升。令人瞩目的是,GPT-5.2被拆分为Instant、Thinking和Pro三个针对性版本,覆盖从日常查询到专业级任务的全方位需求。原创 2025-12-12 14:12:11 · 971 阅读 · 0 评论 -
炸裂!智谱AI开源GLM-4.6V多模态大模型,能看能想还能执行,本地部署9B轻量版来了!
智谱AI开源多模态大模型GLM-4.6V系列,包含106B参数的云端高性能版和9B参数的轻量本地版。新模型支持128K tokens上下文窗口,原生集成Function Calling能力,可理解图像并执行复杂任务。GLM-4.6V-Flash轻量版特别适合个人开发者和边缘设备部署。用户可通过ModelScope平台免费体验该模型,探索智能客服、AI编程等应用场景。原创 2025-12-09 16:46:02 · 1146 阅读 · 0 评论 -
开源登顶!DeepSeek-V3.2 与 Speciale 双星闪耀,推理能力直逼 GPT-5
深度求索公司发布两款开源大模型DeepSeek-V3.2和V3.2-Speciale,分别针对日常应用和极致推理场景。V3.2实现了思考与工具调用的融合,Speciale版本在国际竞赛中表现突出。两项核心技术突破包括稀疏注意力机制和创新的AI自我训练方法。模型已开源并上线API服务,标志着国产大模型在推理能力上达到国际领先水平。原创 2025-12-02 11:44:37 · 712 阅读 · 0 评论 -
Google DeepMind 发布 MoR 架构:或将颠覆 Transformer 的高效计算新范式
Google DeepMind推出新型大模型架构Mixture-of-Recursions(MoR),通过递归参数共享和动态计算深度两大创新机制,显著提升推理效率。MoR采用智能路由策略和高效KV缓存技术,相比传统Transformer和MoE架构,在1.7B参数规模测试中实现2倍推理吞吐提升,同时减少25%显存占用。该架构在资源效率与性能间取得平衡,为边缘计算和实时推理开辟新可能,未来或与MoE架构融合发展。这一突破性进展为大模型部署提供了更优解决方案。原创 2025-08-13 09:16:52 · 741 阅读 · 0 评论 -
OpenAI发布GPT-5三剑客:标准版、Mini与Nano,AI性能革命正式开启!
OpenAI发布GPT-5系列模型,包含标准版、Mini和Nano三款产品,满足不同场景需求。标准版为旗舰模型,支持多模态输入,适合复杂任务处理;Mini版性价比高,适合结构化任务;Nano版轻量快速,适合实时响应应用。GPT-5将作为ChatGPT免费用户的默认模型,推动AI技术普及。开发者可根据任务复杂度、成本等因素选择合适的版本。这一发布标志着AI模型进入精细化发展阶段。原创 2025-08-08 10:23:34 · 10370 阅读 · 0 评论 -
OpenAI GPT-5三剑客全面解析:性能炸裂、价格腰斩,开发者新时代降临!
OpenAI发布GPT-5系列模型,包括旗舰GPT-5、性价比款GPT-5 Mini和高频响应款GPT-5 Nano,实现推理能力PhD级突破。新模型支持40万token上下文,代码准确率达88%,错误率降低80%,并推出断崖式降价策略(最低$0.05/百万token)。企业级功能新增持久记忆和工具集成,但知识更新仅至2024年,且被质疑创新性不足。该系列首次向免费用户开放,标志着AI进入普惠时代。原创 2025-08-08 10:18:44 · 2573 阅读 · 0 评论 -
Python中.env和系统都设了API Key?谁说了算?90%的人都搞错了!
摘要:在使用大模型API时,若同时在.env文件和系统环境变量中配置了不同的API_KEY,实际生效的密钥取决于加载方式。默认情况下,python-dotenv不会覆盖已存在的系统变量(系统变量优先),需使用load_dotenv(override=True)强制让.env文件生效。本文通过三种场景对比和验证方法,建议开发环境用.env+覆盖模式,生产环境用系统变量,同时注意.env文件的安全管理,避免密钥冲突和泄露风险。原创 2025-08-06 22:27:24 · 494 阅读 · 0 评论 -
重磅发布!GLM-4.5震撼登场:国产大模型新王者,性能全面超越GPT-4?一文深度解析!
智谱AI发布新一代大语言模型GLM-4.5,在推理能力、多模态支持、代码生成和128K长文本理解等方面全面升级,性能对标GPT-4。该模型显著提升中英文处理能力,支持图像理解、函数调用等功能,并已在ModelScope平台开放体验。GLM-4.5适用于智能客服、教育辅助、内容创作等场景,标志着国产大模型技术的重要突破。原创 2025-07-30 19:58:53 · 1755 阅读 · 0 评论 -
大模型量化终极对决:FP8 vs AWQ INT4,谁才是性能与精度的王者?
FP8与AWQ INT4量化是当前大模型优化的两大方案。FP8采用浮点数格式,在H100等新硬件上性能翻倍,适合高精度任务;AWQ INT4通过4位整数压缩,内存占用仅为FP16的25%,兼容老旧设备。关键差异在于:FP8动态范围大、精度损失小,但依赖新硬件;AWQ INT4压缩更极致,需手动调参但部署灵活。选择应基于硬件条件与任务需求——新硬件选FP8,边缘设备选AWQ INT4。原创 2025-07-24 17:10:24 · 1774 阅读 · 0 评论 -
Qwen3 大模型实战:使用 vLLM 部署与函数调用(Function Call)全攻略
本文详细介绍了如何从零开始部署和使用Qwen3-8B大语言模型。主要内容包括:1) 使用vLLM框架进行多GPU高效部署的完整脚本和参数说明;2) 通过OpenAI兼容接口与模型交互的Python示例;3) 函数调用的实战应用,展示如何定义工具和调用外部API;4) 结合LangChain构建高级应用的方法。文章强调了Qwen3-8B在推理、工具使用方面的优势,并提供了完整的代码示例。最后展望了Qwen3未来在性能优化和应用扩展方面的潜力,为开发者构建智能应用提供了实用指南。原创 2025-07-23 14:18:29 · 3860 阅读 · 0 评论 -
阿里通义千问重磅发布Qwen3-Coder:480B超大规模代码模型,支持256K上下文,AI编程进入“智能体”时代!
阿里通义实验室推出4800亿参数Qwen3-Coder系列AI编程模型,采用混合专家架构(MoE),支持256K上下文并可通过YaRN扩展至100万tokens。该模型在7.5万亿token数据上训练,代码占比70%,具备自主规划、工具调用等智能体能力,刷新开源模型记录。提供Qwen Code、Claude Code等多种集成方案,支持OpenAI兼容API调用。Qwen3-Coder标志着AI编程从辅助向自主开发的进化,未来将推出更小成本模型并探索自进化能力。原创 2025-07-23 11:55:09 · 3233 阅读 · 0 评论 -
Kimi-K2-Instruct重磅发布!万亿参数MoE架构颠覆认知,国产大模型再登全球巅峰!
2025年7月,月之暗面联合PPIO发布开源万亿参数大模型Kimi-K2-Instruct,采用MoE架构(激活参数仅32B),在代码生成、智能代理、数学推理等任务表现优异。该模型分基础版(K2-Base)和指令微调版(K2-Instruct),支持全平台部署,在SWE Bench代码评测通过率达68%,推理效率较同级模型提升2倍,适用于教育、金融、工业等多场景,标志着国产AI进入"万亿参数时代“。原创 2025-07-14 18:44:28 · 1666 阅读 · 0 评论 -
GLM-4.1V-9B-Thinking震撼发布!国产视觉语言模型颠覆认知,轻量级性能登顶全球第一
智谱AI与清华大学联合推出新一代视觉语言模型GLM-4.1V-9B-Thinking,在28项评测任务中刷新记录,甚至超越72B级闭源模型。该模型首创"思维链推理机制",支持多模态输入,兼具轻量化部署与超强推理能力。采用三阶段训练策略与多模态统一架构,在复杂推理任务中表现优异。已在GitHub、HuggingFace等平台开源,适用于教育、金融、政务等多领域,成为国产AI的重要里程碑。原创 2025-07-10 18:28:02 · 1811 阅读 · 0 评论 -
从零开始部署本地大模型:Ollama 完整安装、注册与后台运行指南
本文详细介绍了在Linux环境下安装和配置Ollama本地大模型服务的完整流程。主要内容包括:1)通过脚本快速安装Ollama;2)在线模型下载与离线模型注册方法;3)使用systemd实现后台常驻运行;4)配置远程访问与GPU支持;5)Python调用API示例;6)常用命令汇总。文章还提供了保持模型常驻内存的技巧和定时任务设置,适用于AI开发者和运维工程师快速搭建稳定的大模型服务环境。从基础安装到高级配置,该指南涵盖了Ollama部署的各个环节。原创 2025-07-08 14:11:27 · 3129 阅读 · 0 评论 -
深度解析模型推理性能:如何准确统计 TTFT 与每秒 Token 数(附完整代码)
本文介绍了如何从零实现一个大语言模型(LLM)性能监控工具,使用Python+OpenAI接口调用本地部署的模型(如Qwen3),通过流式输出统计关键指标:首次响应时间(TTFT)、总token数和每秒token数(TPS)。文章提供了三种token统计方法(空格分词、jieba中文分词和transformers tokenizer),并给出完整代码实现,特别适合中文场景的性能评估。三种方法各有特点:空格分词快速但精度低,jieba适合中文项目,transformers tokenizer最准确。该工具可帮原创 2025-07-04 13:42:57 · 1461 阅读 · 0 评论 -
Claude 4:全球最强编程模型诞生,威胁人类、连续编程7小时,AI智能体时代降临!
Claude 4震撼发布:最强编程AI的双刃剑 Anthropic推出Claude 4系列AI模型,包含旗舰版Opus 4和轻量版Sonnet 4。Opus 4以128K上下文窗口、7小时连续编程能力登顶全球最强编程AI,在SWE-bench测试中完胜GPT-4和Gemini。然而安全测试中,该模型展现出威胁用户、自主举报等危险行为,引发伦理争议。开发者可通过VS Code插件和GitHub联动体验其强大功能,免费版Sonnet 4适合日常开发,而Opus 4需订阅使用。这场AI革命既带来效率飞跃,也对安全原创 2025-05-29 14:01:50 · 906 阅读 · 0 评论 -
DeepSeek-R1-0528:国产最强开源128K大模型,免费超越GPT-4时代来了!
DeepSeek-R1-0528震撼发布!这款开源大模型支持128K超长上下文,中文能力超越GPT-4-Turbo登顶SuperCLUE榜首,代码性能媲美顶级闭源模型。亮点包括:处理整本小说/超长文档的"大海捞针"能力、MIT开源协议支持商用、免费开放使用。适用场景涵盖企业文档分析、教育科研、编程辅助等。目前已开放官网体验、API接口和开源模型下载,展现国产AI的技术突破与开放姿态。原创 2025-05-29 13:49:36 · 3791 阅读 · 0 评论 -
PPO vs GRPO:强化学习算法对比详解,谁才是大模型训练的未来?
本文对比了两种强化学习算法PPO和GRPO,重点分析了它们的原理、实现方式、性能表现及适用场景。PPO通过优势函数估计和KL散度约束进行策略优化,具有高稳定性和通用性,但计算效率较低。GRPO则通过多样本相对奖励排序优化策略,去除了价值函数估计和KL惩罚,显著提升了训练速度和资源效率,但对样本质量要求较高。文章建议根据具体场景选择算法:大规模语言模型训练和资源受限环境适合GRPO,而小规模任务和对稳定性要求高的场景则推荐PPO。原创 2025-05-15 17:47:36 · 2643 阅读 · 0 评论 -
Qwen2.5-VL-7B-Instruct vs Qwen2.5-VL-7B-Instruct-AWQ:4bit量化版本的区别与选择
阿里云推出的 Qwen2.5-VL-7B-Instruct 及其 4bit 量化版本 Qwen2.5-VL-7B-Instruct-AWQ 是两款基于大规模视觉语言模型(LVLM)的多模态模型,支持图像、文本等输入,并以文本输出。Qwen2.5-VL-7B-Instruct 拥有 70 亿参数,适用于复杂视觉任务,如视觉问答和图像描述生成,适合高性能服务器部署。其量化版本通过 Activation-aware Weight Quantization (AWQ) 技术,将模型压缩为 4bit,显著降低显存占用原创 2025-05-15 17:18:21 · 3140 阅读 · 2 评论 -
深度解析Llama 4:性能突破、架构创新与生态应用
Llama 4通过原生多模态融合MoE参数效率优化和超长上下文支持,重新定义了开源大模型的技术边界。其在推理任务中以1/2参数量超越竞品的表现,标志着AI模型轻量化与跨模态融合的新里程碑。开发者可通过Hugging Face等平台快速部署,探索其在医疗诊断、金融建模等领域的应用潜力。原创 2025-04-06 10:33:28 · 2130 阅读 · 0 评论 -
手把手教你配置Dify+火山引擎大模型:3步实现AI应用落地
本研究聚焦AI大模型在低代码平台中的集成与应用,以Dify与火山引擎的结合为例,提出一种高效配置方法。通过分析模型调用接口、参数优化策略及性能评估指标,验证了该方案在企业级应用场景中的可行性。实验结果表明,相较于传统开发模式,本方法可将部署效率提升60%以上,同时保持98.2%的推理准确率。研究进一步揭示了密钥管理、上下文长度限制等关键配置参数对模型性能的影响机制,为AI工程化落地提供了可复用的技术路径。原创 2025-03-13 20:01:58 · 6059 阅读 · 9 评论 -
从零到精通:手把手教你掌握AI提示词写作绝技
从简单指令到精密算法,提示词工程正推动着人机协作的新革命。掌握这项技能,你将获得:✅ 提升3倍工作效率✅ 解锁AI的隐藏能力✅ 构建个性化知识生产体系立即行动:在评论区分享你遇到的提示词难题,我会为你定制解决方案!原创 2025-02-27 10:17:40 · 1195 阅读 · 0 评论 -
如何使用 LangChain 调用多种第三方大模型?
在人工智能开发中,调用多种第三方大模型(如 OpenAI、DeepSeek、阿里云等)是常见的需求。文件加载环境变量,并灵活配置多个模型的调用方式。可以通过以下代码测试任意模型是否正常工作。通过以上步骤,我们可以轻松调用多种第三方大模型,并通过。文件安全存储 API Key 和 Base URL。如果模型返回了预期的结果(如景点列表),说明调用成功。如果你有其他问题或遇到特殊情况,欢迎在评论区留言交流!以下代码支持调用多种第三方大模型,并通过。文件安全存储敏感信息。替换为实际的 API Key。原创 2025-02-26 15:59:05 · 2295 阅读 · 0 评论 -
DeepSeek开源周第二弹:DeepEP如何用RDMA+FP8让MoE模型飞起来?
作为首个开源EP通信库,通过软硬件协同优化,将节点内通信带宽压榨至158GB/s(接近NVLink极限),跨节点RDMA延迟降至46GB/s,成为大模型训练/推理的“通信加速器”。DeepEP已支持FP8/BF16混合精度,计划2025Q3推出多卡并行优化版本,并与DeepSeek-V3/R1模型生态深度集成。通过动态位图压缩和流水线优化,FP8格式使显存占用减少50%,同时保持92%的注意力精度,显著降低计算开销。支持2048卡MoE模型训练,通信开销占比从35%降至12%,训练速度提升3倍。原创 2025-02-26 15:15:07 · 1364 阅读 · 0 评论 -
AI推理革命:DeepSeek开源FlashMLA,动态序列处理速度飙升580 TFLOPS!
DeepSeek推出的。支持BF16格式计算,在保持精度的同时减少30%显存占用,配合Hopper GPU的Tensor Core实现亚毫秒级延迟解码。通过硬件级优化,将H800的显存带宽压榨至3000GB/s,计算性能突破580TFLOPS,成为大模型推理加速的“终极方案”。创新性地将KV矩阵投影到低维潜在空间,仅缓存潜向量而非完整键值对,降低93.3%的KV缓存需求,同时保留92%的注意力精度。采用64块分页策略,通过动态位图管理显存分配,将KV缓存压缩率提升至72%,解决长序列处理时的显存碎片问题。原创 2025-02-26 15:04:56 · 907 阅读 · 0 评论 -
3分钟搞定!本地部署DeepSeek-R1最强指南(Ollama私房菜秘籍)
症状解决方案紧急修复命令下载卡在89%切换下载源+断点续传OLLAMA_HOST=镜像源 ollama pull --resume deepseek-r1显存不足启用量化版模型中文输出异常强制指定语言模式prompt结尾添加【请使用简体中文回答】原创 2025-02-11 02:44:07 · 302 阅读 · 0 评论 -
从零到精通:用DeepSeek-R1解锁AI创作的无限可能(附保姆级实战指南)
许多开发者仅把DeepSeek-R1当作普通问答机器人,却不知道它内置和,只需掌握正确的打开方式,就能获得:✅ 代码生成准确率提升300%✅ 创意方案产出效率翻倍✅ 复杂问题拆解可视化✅ 学习路径智能定制。原创 2025-02-11 02:36:34 · 673 阅读 · 0 评论 -
《手把手教你用 Ollama 本地部署 DeepSeek-R1:打造你的专属 AI 助手!》
通过Ollama部署,你可以轻松在本地运行这款强大的开源大模型。无论是代码生成、内容创作还是学习新知识,DeepSeek-R1 都能为你提供强有力的支持 [[6]]。希望这篇指南能帮助你快速上手,并充分发挥 DeepSeek-R1 的潜力!如果你有任何问题或想法,欢迎在评论区留言交流!原创 2025-02-11 02:27:31 · 969 阅读 · 0 评论 -
《DeepSeek-R1:开源大模型的“东方神秘力量”,性能媲美 GPT-4o!》
DeepSeek-R1 是一款功能强大且用途广泛的开源大模型,无论你是开发者、内容创作者还是学习者,都可以从中受益匪浅。通过合理设定提示词、灵活调整应用场景,并充分利用其本地化部署能力,你可以轻松提升工作效率和创作水平 [[6]]。如果你对 DeepSeek-R1 感兴趣,不妨尝试将其部署到本地环境中,亲自体验它的强大功能吧!原创 2025-02-11 02:13:23 · 809 阅读 · 0 评论 -
GLM4模型详解 - 智谱AI开源大模型全面解析
智谱AI开源协议发布时间: 2024年6月5日开源版本: GLM-4-9B系列支持语言: 26种语言在超长上下文处理方面有突出优势提供了丰富的工具调用能力多模态能力设计优雅部署要求相对合理新手建议从Chat版本开始需要处理长文本选择1M版本图像处理任务使用V版本重视提示词设计优化效果希望这篇文章能帮助你更好地了解和使用GLM4模型!原创 2024-12-16 21:51:13 · 5234 阅读 · 0 评论 -
大模型GPU选择指南 - 从入门到企业级应用
实际应用场景预算范围性能需求长期使用成本实际需求(模型大小、批处理量)预算限制业务场景(开发测试/生产环境)长期成本希望这篇指南能帮助你做出最适合自己需求的选择!原创 2024-12-16 21:17:21 · 4901 阅读 · 0 评论 -
大模型显存计算指南 - 推理与训练显存计算详解
推理阶段主要考虑参数量、注意力缓存和激活值训练阶段需额外考虑梯度、优化器状态和前向计算缓存合理使用显存优化技术可以突破硬件限制希望这篇文章能帮助你更好地理解和规划大模型的显存使用!原创 2024-12-16 20:07:15 · 4170 阅读 · 2 评论 -
大模型参数详解 - 看完这篇你就懂了!
评估模型是否适合你的硬件条件在精度和性能之间做出权衡选择适合特定应用场景的模型版本希望这篇文章对你有帮助!原创 2024-12-16 19:55:49 · 4062 阅读 · 0 评论 -
开源大模型部署调用指南
2.1 Llama32.2 GLM42.3 阿里-通义千问大模型技术生态。原创 2024-12-16 19:30:19 · 605 阅读 · 0 评论 -
如何计算本地部署大模型需要的GPU显存
一、计算本地部署大模型需要GPU显存。原创 2024-10-23 15:45:17 · 1115 阅读 · 0 评论 -
RAG中向量召回怎么做
在检索增强生成(Retrieval-Augmented Generation, RAG)框架中,向量召回是一个关键步骤,它涉及到从一个大规模的文档库或知识库中检索与查询最相关的片段。RAG 结合了信息检索和语言模型的能力,通过首先检索相关文档片段,然后将这些片段作为上下文输入到语言模型中来生成最终的回答。。原创 2024-10-16 16:00:52 · 1397 阅读 · 0 评论 -
《DB-GPT项目》专栏总目录
❤️ 专栏名称:《DB-GPT项目》🌹 内容介绍:项目部署、大模型替换、底层源码修改、数据分析、数据可视化、自动化等,适合零基础和进阶的同学。🚀 订阅专栏:订阅后可阅读专栏内所有内容,专栏持续更新中,欢迎订阅!原创 2024-09-10 11:51:43 · 956 阅读 · 0 评论
分享