自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(131)
  • 收藏
  • 关注

原创 大模型中的MCP:AI的万能插座与同事小王的小魔仙

而今天,程序员们终于能像钢铁侠调教贾维斯一样,对着IDE喊一声:“Jarvis,把这段代码提交库中,顺便给产品经理发个带狗头表情包的邮件!:相当于贾维斯的语音接收器,专门把程序员的"咒语"翻译成机器能听懂的黑话(比如把"改个bug"翻译成500行代码,顺便在注释里写上"此处为老板的无知埋单")你的AI助手DeepSeek正翘着二郎腿说:“亲,查上周的代码提交记录?:在IDE里输入"困了",MCP自动下单星巴克,还能精确控制咖啡因含量防止手抖写bug(顺便给同事发消息:“你同事刚点单,记得帮他按电梯”)

2025-04-03 09:22:05 468

原创 当AI学会“查字典”:揭秘知识库中的RAG技术革命

想象你有个过目不忘但记性差的朋友——大语言模型(LLM)就像这个朋友,虽然能说会道却经常张冠李戴。某天它把“量子计算”解释成“量子养生”,把“OpenAI CEO”记成“OpenAI食堂大厨”,这种“一本正经胡说八道”的毛病,专业术语叫做“幻觉”(Hallucination)。这时候RAG技术闪亮登场,相当于给这个糊涂学霸配了个随身图书馆员:每当用户提问,馆员就会从知识库货架上精准抽出三本参考书,把关键页折角塞给LLM参考。这个“作弊”组合,就是让ChatGPT们突然变靠谱的秘密武器。•RAGFlow。

2025-04-01 09:43:15 429

原创 解决Trae AI Builder 模式出现“服务异常,请稍后重试”的问题

先输入“创建 Vue3 登录页面”,再追加“集成 Element-Plus 表单验证”• 通过日志分析 AI 生成的代码逻辑断层(如未处理。• 复制终端报错信息并发送给 Builder(例如。• 在 Builder 对话框右下角切换至。• 启动软件后勾选"显示系统/隐藏文件"选项。• 将复杂任务安排在凌晨或午间执行(可用。(内置浏览器数据,路径含特殊字符需转义)• 在 Trae 终端面板右上角点击。(日志文件,位于安装目录/logs)Windows 系统需确保已安装。• 解压至 Trae 安装目录的。

2025-03-29 17:11:08 1029

原创 从Word2Vec到BGE-M3,深入解析Embedding如何让AI真正“读懂“人类语言

站在2025年的技术奇点上回望,Embedding早已不是简单的"数据秋裤",而是打开认知革命的密钥。BGE-M3展现的"三花聚顶"神功,不过是这场变革的冰山一角。

2025-03-27 14:47:49 815

原创 用API解锁大模型超能力——从零构建智能体到本地知识库全链路解析

当API调用量突破万亿次/天,我们正在见证软件研发范式的根本变革。没有完美的架构,只有最适合场景的平衡——正如某位工程师在重构工作流时所说:“用好API的关键,是既要有仰望星空的野心,也要有脚踩大地的谨慎。

2025-03-24 22:07:49 1034

原创 知识库导入excel总出bug?试试这款工具openrefine

的开源数据清洗工具(前身为 Google Refine),自 2012 年转为社区驱动项目,现已成为数据科学家、分析师和研究人员的“智能管家”。,支持 CSV、Excel、JSON 等格式。科研场景中,可导出为 VOSviewer 兼容的 TXT 模板。例如,处理科研文献数据时,可导入 Web of Science 导出的 Excel 文件。:将项目文件加入版本控制,跟踪清洗历史变更,适用于长期数据维护。,支持从数据清洗到增强的全流程处理,尤其擅长处理。(生成知识图谱),增强数据语义关联。

2025-03-23 13:58:46 619

原创 2025年最全Linux命令速查表|运维必备(内容很多建议收藏以后用)

通过本文的实战指南,我们系统梳理了从传统运维到云原生、智能监控的全栈技能。建立命令知识图谱参与Chaos Engineering演练持续跟踪CNCF技术路线4.与大模型结合。

2025-03-23 13:53:14 1035

原创 软件开发模型演进中的流程革命

那个在瀑布模型下开发金融系统的春天,我们花了6个月画完所有UML图后,发现市场已经不需要这个功能了”“在这个每天诞生73种新方法论的世界,最高级的开发艺术是——知道何时打破流程。

2025-03-20 21:35:34 833

原创 DeepGEMM:开源周杀出的“算力刺客”,看“穷哥们”如何“卷”翻AI算力江湖?

如果说大模型是数字世界的“超级大脑”,DeepGEMM就是给这个大脑装上了涡轮增压引擎——这个开源周最炸裂的黑马工具,用300行代码重构了十年矩阵优化史,让英伟达工程师都直呼“比我们更懂Hopper架构”。:在300行核心代码中嵌入"Hopper架构魔法解析"(,包含CUDA内存对齐、张量分片等核心技术文档,让开发者通过注释就能掌握TPU级优化技巧。:采用FP8混合精度计算,通过量化技术将显存占用量压缩50%,千亿参数模型在单张RTX 4090上即可运行,云服务账单直接从六位数降到五位数。

2025-03-18 16:39:56 522

原创 从Scaling Laws中解析大模型训练的边际递减临界点

当我们拆解GPT-4到DeepSeek的演进路径,会发现一个反直觉的真相:​AI的智能跃迁不依赖参数堆砌,而取决于对"结构-能量-信息"三元关系的精准把控。就像人类大脑在进化中通过皮层折叠而非单纯增大体积来实现智能突破,大模型正在经历从"野蛮生长"到"精妙架构"的范式革命。

2025-03-17 22:06:45 882

原创 规模效应的三重边界:大白话解读-deepseek为例

在人工智能的狂飙突进中,大语言模型如同不断膨胀的星体,吞噬着海量算力与数据。OpenAI于2020年揭开的Scaling Laws,曾为这场盛宴指明方向:模型性能随参数规模(N)、数据量(D)、计算量(C)的幂律增长而提升。但鲜少有人注意到,这条看似完美的增长曲线背后,正潜伏着名为边际递减效应的痛点。别当冤大头:参数堆到千亿后,每点性能提升都像往沙漠运水——成本暴涨效果微弱要会看天气:训练大模型得像老农民种地——看天(数据质量)吃饭,适时播种(调整超参)抓住顿悟期。

2025-03-16 21:08:21 602

原创 知识库总出bug?别怪AI,先学会“数据整理四步曲”

就像整理衣柜,袜子放抽屉,外套挂衣架,找衣服不会翻出乱七八糟的东西!像记账本,客户信息单独记一页,订单只写“买了啥”,不用重复抄电话!像班级通讯录,班长直接存班主任电话,不用先写“数学系”再查电话!像公司报销,只有财务主管(主钥匙)能批钱,部门经理不能越权!:把整理好的数据导入知识库,感受AI“秒懂你需求”的快乐!:搜索“北京”直接弹出所有北京项目,无需翻遍文件名!订单表存「订单号、产品名、产品价格、客户电话」。:从你最混乱的Excel表格开始,用四步法拆解。:用数据库范式思维,给知识库做“数据大扫除”。

2025-03-15 18:34:19 487

原创 当大模型训练遇上“双向飙车”:DeepSeek开源周 DualPipe解析指南

在大模型训练中,传统流水线并行因单向数据流和通信延迟的限制,导致GPU利用率不足60%,成为算力瓶颈。DeepSeek团队提出的DualPipe双向流水线架构,通过双向计算流与计算-通信重叠的创新设计,将前向与反向传播拆解为“对称轨道”,使GPU可“边读边写、边算边传”,将流水线空闲时间压缩超50%。结合显存优化技术,其显存占用仅为传统方法的1/8,GPU利用率提升至92%,单epoch训练时间缩短30%,通信开销降低80%。

2025-03-15 13:13:37 1061

原创 为什么DeepSeek的模型直接从70b到了671b,没有200B或者中间位数的模型呢?

当行业还在争论"万亿参数何时到来"时,DeepSeek用671B模型证明:精准的架构设计能让参数效率产生量级差异。这或许预示着AI竞赛将进入新维度——从"大力出奇迹"转向"四两拨千斤"。正如半导体行业从拼制程转向chiplet技术,AI模型的未来,属于那些能用更聪明的方式组织参数的架构大师。

2025-03-13 16:48:38 1339

原创 深度解读:DeepSeek-R1 671B与32B——参数与价格的迷思与真相

这个问题就像在问"为什么高铁和动车票价差这么多,速度却只差几十公里"。下面来分析分析为什么会这样。

2025-03-10 22:54:44 1026

原创 手撕操作系统:从PV操作到DeepSeek的读写者算法实战

PV操作的精髓,就像中国古人说的“张弛有道”:•P操作是克制:在资源边界内有序竞争•V操作是释放:成就他人就是成就自己当我们在DeepSeek中输入一个问题,背后可能是数十个PV操作在调度GPU、内存和网络带宽。这种看似简单的“红绿灯系统”,实则是构建稳定高并发系统的基石。

2025-03-10 19:55:07 760

原创 让数据不撒谎和站队正确——聊聊安全模型中的Biba模型和Chinese Wall模型

你的数据被篡改了!“咱们公司的分析师偷看了竞对公司的资料!如果这两个问题出现在你的系统里,小心脏又得难受吧(凌晨两点半的电话)?今天带你扒一扒安全界的两位"防篡改卫士"和"瓜田李下终结者"——Biba完整性模型与Chinese Wall模型,看他们怎么用规则卡住数字世界的规矩。

2025-03-10 02:30:00 566

原创 基于昇腾MindIE与GPUStack的大模型容器化部署从入门到入土

本文完整演示了基于昇腾MindIE与GPUStack的大模型容器化部署流程。通过结合MindIE的高效推理能力和GPUStack的灵活资源管理,企业可快速构建私有化大模型服务平台。更多进阶配置(如多模型动态调度、安全隔离)可参考昇腾社区与GPUStack官方文档。

2025-03-08 21:43:34 962

原创 用分页干掉显存浪费!聊聊VLLM的PagedAttention

不知道你在部署模型的时候,有没有经历过这样的抓狂时刻——跑大模型时显卡显存明明没有占满,程序却报错OOM(内存不足)?表面看是显存不足,背后其实是KVCache碎片化和重复存储这个"隐形刺客"在作祟!最近很火的开源的祭出了一个酷似虚拟内存的"换家战术",直接把KVCache的显存利用率提升2-3倍!今天就聊聊这个核心技术。

2025-03-08 20:35:03 612

原创 在昇腾GPU上部署DeepSeek大模型与OpenWebUI:从零到生产的完整指南

随着国产AI芯片的快速发展,昇腾(Ascend)系列GPU凭借其高性能和兼容性,逐渐成为大模型部署的重要选择。本文将以昇腾300i为例,手把手教你如何部署DeepSeek大模型,并搭配OpenWebUI构建交互式界面。无论你是AI开发者还是企业运维,都能通过本文快速搭建生产级AI服务。通过本文,你已成功在昇腾GPU上构建了从模型推理到Web交互的完整链路。随着昇腾生态的不断完善,国产AI芯片正在为开发者打开新的可能性。希望这篇指南能为你的AI应用部署提供实用参考!如有疑问,欢迎在评论区交流讨论。

2025-03-08 11:40:17 903

原创 当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)

但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理),大模型的训练和推理在技术实现上存在本质差异。当k=4时,推理速度会降低40%,但输出稳定性提升显著,适合医疗诊断等容错率低的领域。虽然效率最高,但会导致"车轱辘话循环",实际应用仅见于语音助手等简单场景。当训练完成的模型开始服务用户,就进入了推理阶段。这类数据占比约5%,可类比"选择题+问答题",训练特定任务执行能力。占据互联网的90%以上,是模型认知世界的"原始素材"。

2025-03-07 23:09:19 993

原创 KylinV10系统下Docker容器化部署DeepSeek方案 —— 集成Ollama/VLLM/GPUStack与Open-WebUI的全栈实现

1.2 配置加速镜像源创建配置文件/etc/docker/daemon.json:重启服务生效:二、Ollama模型服务部署2.1 基础部署(CPU模式),昇腾的用欧拉可以适配驱动,命令其实都是一样的Worker节点注册(可选)三、Open WebUI可视化部署四、服务验证模型服务验证访问 检查Ollama API状态WebUI访问浏览器打开 即可使用交互界面GPU资源监控GPUStack控制台可通过 查看GPU利用率硬件要求容器网络配置模型管理Q1:GPU设备

2025-03-05 17:16:57 714

原创 网闸 vs 防火墙:网络安全的“前任”与“现任”实战解析

防火墙就像辣条包装袋上的条形码——

2025-03-04 09:00:00 650

原创 解析Transformer全家桶:从基操到DeepSeek加速推理

Transformer 是一种在自然语言处理(NLP)领域取得重大突破的深度学习模型,它通过自注意力机制(Self-Attention)取代了传统的循环神经网络(RNN)和卷积神经网络(CNN),在处理长距离依赖和并行计算方面表现出色。Transformer 模型由编码器(Encoder)和解码器(Decoder)两部分组成,广泛应用于机器翻译、文本生成等任务。Ps:有一说一官方的表达真的很让人没有读下去的欲望,本人以后将摒弃这种风格(手动狗头,科研大佬别喷我)建议配合《大悲咒》循环BGM食用更佳🙏—

2025-03-03 22:30:00 1469

原创 解决Docker拉取镜像超时错误,docker: Error response from daemon:

当使用或docker run时遇到的报错,说明Docker客户端在访问Docker Hub时出现网络连接问题。可以不用挂加速器也能解决,linux不好用clash。

2025-03-03 21:53:30 1583

原创 深度解析基于Transformer的LLaMA2模型结构:从分词到推理的完整流程

ps:我其实想说一句,语言模型的本质就是根据根据文字资料进行搜索,然后生成人话的过程,它不是万能的,一些企业的朋友经常会高估这个东西。每个token被转换为5120维的高维向量,向量中编码了词义、语法角色(名词/动词)、情感倾向等信息。该架构证明,优秀的模型设计需同时具备理论深度与工程务实——如同“用最精密的齿轮,组装最高效的机器”。输入文本被拆分成更小的语义单元(token)。,其中某些维度代表“自然景象”“时间”“情感氛围”。输入:“人工智能的未来是__”["饕", "餮"]

2025-03-02 16:26:02 595

原创 如何从零开始理解LLM训练理论?预训练范式、模型推理与扩容技巧全解析

从预训练到推理优化,LLM的发展史就是一部算力碾压+算法骚操作的史诗。但别忘了,模型再强也逃不过Garbage In, Garbage Out的宿命(数据质量才是爹)

2025-03-01 18:05:13 307

原创 手把手教你搞懂多模态大模型推理的黑科技(DeepSeek直呼内行版)

📢 家人们谁懂啊!现在的AI不仅能看图说话,还能自创表情包(真·脑洞比黑洞大)。今天咱们用"暴躁版科普"拆解多模态LLM原理,建议搭配82年的小文哥的酒食用⬇️。

2025-02-28 15:44:28 1477

原创 “参数天团“出道玄机:深扒 DeepSeek 不玩等差数列的秘密

每个小模型都是大模型的0.618倍参数,这恰好是知识蒸馏中损失函数收敛最快的师生比例。就像用85%的算力获得95%的性能,堪称AI界的"田忌赛马"。这个数字游戏背后是硬件工程师的血泪史——每砍掉0.1B参数,就能让推理时batch_size翻倍,这才是真正的"显存刺客"!通过将层数从33层砍到32层,显存占用从77.4GB骤降到74.9GB,刚好跨过A100的安全线,这就是工业级刀法的精髓!这些"失踪王子"们正在等待时机,当行业陷入参数内卷的泥潭时,它们将带着全新的游戏规则归来。

2025-02-28 14:03:47 835

原创 大白话讲AI瘦身术:给大模型“减肥”的三板斧

生活中我们常说要给身体减脂增肌提升效率,“肥胖"的AI大模型同样面临这个问题——参数动辄几十亿的"胖墩儿”,跑起来耗电卡顿还占内存!今天我们就用做奶茶店生意的故事来解释3种让AI"瘦身提速"的黑科技。

2025-02-26 22:52:38 283

原创 模型蒸馏与量化技术:让AI模型“瘦身”却不“降智”的底层逻辑

在算力军备竞赛的今天,模型优化技术已成为AI落地的胜负手。当我们用INT8在智能手表上运行BERT,用FP8在无人机实现实时语义分割时,这场静悄悄的效率革命正在重塑AI的应用边界。理解这些技术背后的数学之美,或许就是打开下一代智能系统的钥匙。延伸阅读[Hinton经典论文《Distilling the Knowledge in a Neural Network》][NVIDIA白皮书《8-bit Floating Point: The Next AI Datatype》]

2025-02-25 22:13:30 1238

原创 深度解析DeepSeek中的MoE混合专家模式:原理、实现与应用

在DeepSeek等千亿参数大模型中,MoE通过动态路由(Dynamic Routing)将输入数据分配给多个专家子网络,显著提升模型容量和计算效率。未来,随着AutoMoE等技术的成熟,MoE将推动AI模型从“通用巨兽”向“柔性专家联盟”进化,为AGI的实现提供关键技术支撑。通过技术细节补充、性能数据验证与未来趋势扩展,本文全面解析了MoE的核心价值,为ikun们提供了从理论到实践的完整指南。想象一家医院的分诊系统:患者根据症状被分配到不同专科(心脏科、神经科、骨科等),由最擅长的医生团队联合诊治。

2025-02-24 08:00:00 1569

原创 深度解析:大模型在多显卡服务器下的通信机制与分布式训练——以DeepSeek、Ollama和vLLM为例

随着大模型参数规模突破千亿级(如GPT-4、DeepSeek),单显卡的显存容量与算力已无法满足需求。多显卡并行计算成为训练与推理的核心技术,其核心挑战在于与。本文以国产大模型DeepSeek为例,结合Ollama与vLLM推理引擎,深度剖析多显卡协同工作的技术实现,并通过代码示例、性能数据与架构图展示完整解决方案。:将训练数据划分为多个批次,每个显卡持有完整的模型副本,独立计算梯度后同步更新。fill:#333;color:#333;color:#333;fill:none;AllGather。

2025-02-23 17:43:52 1517

原创 昇腾AI生态组件全解析:与英伟达生态的深度对比

随着人工智能技术的快速发展,国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾(Ascend)系列AI处理器凭借自主创新的达芬奇架构,构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度,深入剖析昇腾与英伟达(NVIDIA)生态的技术差异与适用场景。

2025-02-23 16:55:43 1409

原创 modelscope魔搭社区大模型部署与加速全攻略:零代码到高性能全覆盖

魔搭社区通过创新技术整合,打造了从单机部署到万人并发场景的全栈解决方案。值得一提的是,最新推出的TensorRT-LLM加速服务已在部分模型上实现端到端优化,开发者只需在部署时添加参数即可启用。更多部署技巧及实战案例,可访问魔搭LLM部署中心获取实时更新的技术文档和行业最佳实践方案。

2025-02-22 23:07:28 1475

原创 解析多模态、Agent与Code模型的演进

以DeepSeek-V2的多模态模块为例,其通过**可插拔适配器(Adapter)**动态调整视觉与语言流的信息交换强度,在ImageNet分类任务中相比CLIP模型提升7.3%的zero-shot准确率。赋予了AI自主决策与持续交互的能力,**代码模型(Code Models)**则重新定义了人机协作的编程范式。随着大模型技术的爆发,AI领域正在经历从“单一模态专用”到“多模态通用智能”的进化。**多模态模型(Multimodal Models)**彻底打破了人类感知与表达的界限,

2025-02-22 22:53:59 704

原创 语义向量模型全解:从基础到现在的deepseek中的语义向量主流模型

未来十年,多模态融合与小样本学习将是突破焦点,而开源生态(如Hugging Face、智源MTP数据集、DeepSeek开源引擎)将进一步降低技术门槛。在实际应用中,根据任务需求灵活组合模型(如DeepSeek+CLIP多模态方案),才是解锁语义理解的金钥匙。语义向量模型(Semantic Vector Model)是自然语言处理(NLP)的核心技术,它将词汇、句子或文档映射为高维向量,在数学空间中量化语义信息。通过向量距离(如余弦相似度)衡量语义的相似性,支撑了搜索引擎、情感分析、机器翻译等实际应用。

2025-02-21 16:34:10 2620

原创 深度解析Token:从技术原理到商业应用的全栈指南

在云计算与人工智能蓬勃发展的今天,“Token”(令牌)已成为构筑现代应用安全与效率的核心技术。从硅基流动(SiliconFlow)的AI云服务平台到日常的移动应用登录,Token在不同场景下展现了其灵活性与技术魅力。例如在硅基流动的API服务中,开发者通过购买Token(如1元/10万Token)来调用大模型,而无需关心算力设施的管理。对于企业,以硅基流动为代表的Token经济正打开AI普惠化的新通路——未来,或许每家企业都将拥有自己的“Token工厂”。,通过数据库事务保证原子性操作。

2025-02-21 16:14:17 995

原创 为什么DeepSeek能如此高效? ——从技术视角看国产大模型如何突破训练效率瓶颈

或许在不远的未来,训练一个GPT-4级别的模型将不再需要国家级算力,而只需一个中等规模的实验室。传统优化器Adam在超大规模训练中容易不稳定,LAMB(Layer-wise Adaptive Moments)针对大模型调整学习率,使万卡训练的批量大小(Batch Size)可扩展至百万级。在通用语料训练中融入数学公式、代码等结构化知识,相当于给模型“喂食营养剂”,让相同数据量的训练获得更高收益。从算法创新到底层硬件,从单卡算力到万卡协作,每一个1%的效率提升叠加起来,最终成就了量变到质变的跨越。

2025-02-19 09:39:59 995

原创 解决 `pip install open-webui` 时的编译错误:Microsoft Visual C++ 14.0 或更高版本缺失

这通常意味着你的系统缺少必要的构建工具,特别是 Microsoft Visual C++ 14.0 或更高版本。下面将详细介绍如何解决这个问题。如果你正在使用 Conda 环境管理器,可以通过 Conda Forge 渠道安装。现在,再次尝试通过 pip 安装。在尝试安装 Python 包。

2025-02-17 14:20:30 690

Python 实现高级服务器负载测试工具,支持多线程与多种攻击方式,用于安全测试

Python 实现高级服务器负载测试工具,支持多线程与多种攻击方式,用于安全测试

2025-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除