人工智能
文章平均质量分 82
The Straggling Crow
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RAGFlow 2
管理员在配置页面(Chat Configuration)点击“Add Variable”。系统会在数据库里记录一个 JSON Schema。"label": "您的职业","options": ["工程师", "设计师", "产品经理"],“设置对话变量”是 RAGFlow 提供的低代码(Low-Code)逻辑控制能力。对比没用变量用了变量Prompt 形态静态的文本块动态的填空题模板用户体验所有人得到一样的服务用户可以定制自己的服务模式维护成本需要为不同场景创建多个 Bot。原创 2025-12-12 17:25:37 · 1040 阅读 · 0 评论 -
RAGFlow 2
Schema 定义:管理员在系统层面定义 Tag Key(标签名)和对应的可选 Values。类似于。文件入库与打标 (File Upload & Tagging):上传文件时,前端 UI 弹窗让用户选择标签。系统将文件 ID 与选定的标签进行关联。这个标签属性会被该文件切分出来的每一个 Chunk(切片)所继承。向量存储 (Storage):存入向量数据库(Elasticsearch/Infinity/Milvus)。原创 2025-12-12 11:26:23 · 853 阅读 · 0 评论 -
RAGFlow 1
特性OllamaXinferenceIPEX-LLMTriton核心定位个人/开发者工具全栈模型部署框架Intel 硬件加速库工业级推理服务器上手难度⭐ (极简)⭐⭐ (简单)⭐⭐⭐ (需改代码/配置)⭐⭐⭐⭐⭐ (困难)模型支持主打 LLM (GGUF)LLM + 图片 + 音频 + 向量PyTorch 模型所有主流 AI 框架硬件倾向Apple Silicon, NV卡, CPUNV卡 (推荐), CPUIntel CPU/GPU 专用NVIDIA GPU 专用适合场景。原创 2025-12-11 17:24:41 · 874 阅读 · 0 评论 -
MIRIX 3
Procedural Memory (程序记忆)Knowledge Vault (知识库)Episodic Memory (情景记忆)Semantic Memory (语义记忆)Resource Memory (资源记忆)系统主要依赖PostgreSQL 原生全文本搜索 (full-text search)来实现高性能和可扩展性。bm25是推荐的默认搜索方法,因为它利用 PostgreSQL 的原生能力,实现了优秀的性能和广泛的适用性。如果查询关注的是概念或含义。原创 2025-12-10 11:15:16 · 626 阅读 · 0 评论 -
MIRIX 2
每次用户发消息,这个 Agent 都会自动根据关键词从上面 6 种记忆中检索相关内容,拼进 system prompt 里,让 LLM “记得过去”。用户发图片、PDF、Google Docs 链接都能处理。Mirix 的架构极其模块化,它允许你拥有几十种不同的 Agent。这些 Agent 行为千差万别,但它们必须满足一个共同点:收到消息 → 思考 → 可能调用工具 → 可能修改记忆 → 最终返回使用统计。原创 2025-12-08 18:20:19 · 984 阅读 · 0 评论 -
熟练版本控制 (Git)、CI/CD 流程。
如果面试官问:“你如何保证大模型部署的稳定性?” 你可以这样回答:“在之前的项目中,我负责 Llama-3 70B 的部署。为了解决大模型迭代中常见的性能退化和版本混乱版本控制方面:我实施了‘模型配置化’(Model-as-Code),将模型权重路径、Prompt 模版和推理参数统一在 Git 中管理,确保了环境的严格可复现。CI 环节:我引入了GPU 自动化回归测试。在代码合并前,流水线会自动拉起容器进行推理基准测试。我们设定了阈值,如果新代码导致首字延迟(TTFT)增加超过 10%,流水线会自动拦截。原创 2025-12-05 16:23:56 · 712 阅读 · 0 评论 -
理解训练 vs 推理时对计算图、内存、精度的不同要求
太棒了,这不仅是理论,更是顶级部署工程师和普通算法工程师的分水岭。在面试或实战中,很多人以为“部署不就是把 改成 吗?”大错特错。训练(Training)和推理(Inference/Serving)在底层逻辑上是两种完全不同的生物。下面我从计算图、内存、精度三个维度,结合真实项目场景来剖析。核心差异:动态图 vs 静态图 (Dynamic vs Static)训练时 (PyTorch 默认模式):推理时 (Deployment 模式):场景 A:Python 后端太慢,QPS 上不去痛点: 用原生 P原创 2025-12-04 17:32:15 · 773 阅读 · 0 评论 -
要懂 transformer 大模型(如 LLM)的基本构造 +关键组件(Attention, FFN, embedding 等)
老板问:“为什么这个 7B 模型显存只要 14G,那个 7B 模型要 20G?原理回答:“因为那个模型没用 GQA,KV Cache 太大,或者是词表(Embedding)特别大。客户问:“为什么输入长了之后,速度慢得像蜗牛?原理回答:“因为 Attention 是ON2O(N^2)ON2复杂度,我们需要开启 FlashAttention 来优化 IO。运维问:“怎么把两个 GPU 利用率跑满?原理回答。原创 2025-12-04 17:13:34 · 684 阅读 · 0 评论 -
模型分布式复制 /压缩 /动态加载机制
在实际工作中,这些知识不是死记硬背的概念,而是根据**SLA(服务等级协议)和没钱买卡?->压缩 (Quantization)用户嫌慢?->张量并行 (TP)用户太多?->副本复制 (Replication)模型太多?->动态加载 (LoRA/Swapping)原创 2025-12-04 09:40:52 · 929 阅读 · 0 评论 -
对分布式推理架构有经验。包括跨机器 /跨节点部署、负载均衡、模型分片。
通过精确计算,Llama-3-70B 模型权重在 FP16 精度下,理论上需要约130.2 GB的显存。而实际应用中提到约140GB模型在推理过程中,每层计算产生的中间结果。这部分数据量取决于批次大小 (Batch Size)和序列长度 (Sequence Length)。用于存储 Attention 机制中的键(Key)和值(Value)向量,特别是进行长序列推理时,K/V Cache 会占用相当大的空间。PyTorch、TensorFlow 或 VLLM 等推理框架自身运行所需的少量显存。原创 2025-12-03 18:07:44 · 1047 阅读 · 0 评论 -
MIRIX 1
覆盖率 = 你的测试代码到底测了多少百分比的项目代码举一个超级简单的例子:if not user_id: # 第2行if tags is None: # 第5行tags = []# 保存到 Redis ... # 第8行save_to_redis(user_id, content, tags) # 第9行summarize_with_llm(content) # 第10行add_memory("u123", "我今天吃了火锅", ["food"])原创 2025-12-03 10:03:27 · 955 阅读 · 0 评论 -
缓存策略、批推理(batching)、异步 /并发机制
缓存是为了省显存和跳过重复计算。Batching是为了在单位时间内处理更多请求。异步是为了让 CPU 在等待 GPU 时不闲着,同时支持流式体验。这就是一名大模型部署工程师如何将理论转化为高性能服务的过程。希望这个视角的解答对你有所启发!原创 2025-12-01 17:35:32 · 901 阅读 · 0 评论 -
model deployment 1201
只能得到一堆“死”的文字流(String)。对于复杂的表格和表单,计算机不知道哪个数字对应哪个标签。给了计算机**“空间感”**。它不仅知道这就是“100”,还知道它在“Total”的右边,且位于表格的最后一行,从而推断出这是“总价”。这个项目利用 OCR 读懂字,利用 Layout Embedding 读懂排版,最终实现像人类一样理解复杂的商业文档。这两个概念是自然语言处理(NLP)和文档智能项目的基石。简单来说,BERT 分词器是“把原本的句子切碎并编号”,而。原创 2025-12-01 14:34:20 · 748 阅读 · 0 评论 -
model deployment 11-28
在传统 Web 服务中,响应时间(Latency)通常指“请求进来到响应出去的总时间”。但在 LLM 的**流式输出(Streaming)**场景下,如果只看总耗时,工程师是无法优化的。作为顶级部署工程师,资源利用率(成本)、**响应时间(体验)和吞吐量(并发)**是一个“不可能三角”。利用量化和技术,榨干显存,提升吞吐量。利用流式输出和投机采样技术,掩盖延迟,优化TTFT和TPOT。利用精细化监控,在成本失控前进行削峰填谷。这就是这些理论指标在真实高并发 LLM 项目中的生存之道。通俗理解。原创 2025-11-28 16:54:40 · 941 阅读 · 0 评论 -
model deployment 11-27
metadata:spec:template:spec:# 1. 确保调度到高性能节点# 2. 启动命令参数化# 3. 资源限制resources:limits:nvidia.com/gpu: 4 # 申请4张卡做TP# 4. 共享内存挂载(解决多卡通信)name: dshmvolumes:emptyDir:claimName: pvc-llama3-weights # 5. 挂载高性能网络存储。原创 2025-11-27 15:17:37 · 915 阅读 · 0 评论 -
model deployment 11-26
显卡和显卡之间搭的“高速私家桥梁”。没有 NVLink (PCIe 模式)显卡 A 想把数据给 显卡 B,必须先走 PCIe 插槽 -> 传给 CPU -> 存入内存 -> CPU 再通过 PCIe -> 传给 显卡 B。速度:慢,像走拥堵的城市地面道路。有 NVLink (Bridge 模式)显卡 A 和 显卡 B 顶部插了一个桥接器(Bridge)。数据直接从 A 飞到 B,不经过 CPU。速度:极快,像走高速高架直达。你现在要做的是8卡 Tensor Parallelism (TP=8)。原创 2025-11-26 16:11:09 · 854 阅读 · 0 评论 -
model deployment 11-25
标准 Attention 算法需要计算一个N×NN \times NN×N的巨大矩阵(Attention Matrix)。如果序列长度NNN翻倍,显存消耗翻 4 倍(平方级复杂度)。而且读写显存次数极多,慢。它极度聪明地利用了 GPU 极快的。把大矩阵切成小块,把小块搬进 SRAM 算完再搬出去。避免了生成巨大的N×NN \times NN×N中间矩阵写回显存。显存占用从ON2O(N^2)ON2降到了ONO(N)ON(线性)!速度快 3-10 倍。原创 2025-11-25 13:41:08 · 558 阅读 · 0 评论 -
model deployment 11-24
导出时间: 2025/11/24 14:15:46。原创 2025-11-24 14:18:12 · 1003 阅读 · 0 评论 -
model deployment
这是一个很好的延伸问题。您提到的和以及KV Cache的管理,都是大型语言模型(LLM)推理部署中,实现高性能和低成本的关键技术。它们都是为了解决Transformer 架构计算速度慢和显存占用大。在 Transformer 模型中,每一层都包含一个自注意力机制(Self-Attention)。当模型逐个生成新的 token 时(即推理过程),它需要计算新 token 与所有历史 token 之间的注意力分数。Key (K) 向量Value (V) 向量。原创 2025-11-19 14:42:23 · 772 阅读 · 0 评论 -
vllm docker部署 大模型 api server
【代码】vllm docker部署 大模型 api server。原创 2025-05-30 09:07:23 · 177 阅读 · 0 评论 -
hf-mirror断点续传下载权重
c你也可以加速下载(多线程)使用aria2。原创 2025-05-29 13:33:48 · 378 阅读 · 0 评论 -
ollama部署模型
【代码】ollama部署模型。原创 2025-05-20 13:41:41 · 224 阅读 · 0 评论 -
大模型相关问题解答
当你需要用显卡做某个任务(比如深度学习训练),你会用工具箱里的工具(CUDA库),然后通过翻译官(显卡驱动)把任务交给显卡去做。是CUDA工具包的一部分,它提供了一个高层次的API,允许开发者在代码中直接访问CUDA的底层功能。所以,即使你的驱动是CUDA 12.0,容器中的CUDA库是12.4,只要驱动足够新,CUDA库的版本可以不同,不会有问题。它是程序和GPU硬件之间的高层接口。CUDA库(CUDA Toolkit)是一个为程序员提供GPU加速计算的工具集,包含了执行计算所需的库、编译器、运行时等。原创 2025-04-28 15:49:52 · 416 阅读 · 0 评论 -
关于chatgpt一点肤浅认识
用数字向量表示单词。它是计算机更好地理解单词1、预训练 – 就是先训练一个模型,用于以后特定任务的微调,比如将 BERT这个模型用于特定的NLP任务,比如情感分析2、one-hot: 用只有一个元素是1,其他是0的向量表示物体。比如苹果可以表示为:[1, 0, 0]香蕉可以表示为:[0, 1, 0]橙子可以表示为:[0, 0, 1]3、监督学习:算法接受带有标签的训练数据,从而对未标记的数据进行预测与分类。就像监督员指导模型学习正确答案。原创 2023-12-15 17:23:45 · 1451 阅读 · 0 评论 -
AIOps浅谈《人工智能专栏里》
时间序列数据是按照时间顺序收集的数据集,每个数据点都带有一个或多个与时间相关的标记。时间序列数据在很多领域都有广泛的应用,如金融、医疗、物联网等。举个实例:假设你正在跟踪股票市场的动态。每天的收盘价就是一份时间序列数据,每一天都是一个数据点,这个数据点的值就是那天的收盘价,而时间戳就是那天的日期。通过收集一段时间内的收盘价,你就可以观察到股票价格的上升和下降趋势,这就是时间序列数据的一个实际应用例子。原创 2023-05-12 11:17:45 · 798 阅读 · 0 评论 -
face_recognition IndexError: list index out of range
https://blog.youkuaiyun.com/u014159143/article/details/82425393主要因为图片中没有检测到人脸转载 2019-08-15 15:20:44 · 760 阅读 · 0 评论 -
梯度下降法
完整版https://www.jianshu.com/p/c7e642877b0e1、在太阳下山前到达山底,用工具测量越多,找到的下山路径越正确,速度越快,但耗时工具的使用次数和时间之间要找到平衡。2、我们要找的就是这个函数的最小值,找到给定点的梯度,朝着梯度相反的方向走就能让梯度下降的最快(因为梯度的方向就是函数下降最快的方向)。重复利用这个方法就能找到局部最小值。3、那么为什么梯度的方...原创 2019-03-14 18:20:34 · 226 阅读 · 0 评论 -
单目测距
一、单目测距用参照物法,如用地面做参照物,那么单目与目标连线就会与地面形成一定夹角,再结合单目与地面的高度,就能计算出距离.二、单目测距用记忆模型比对法,如一小孩的氢气球飘向空中,气球越飘越高,气球的图像与映像中的图像相比是越来越小;当气球的图像是初始图像的一半大时,则距离为初始距离的二倍....转载 2019-08-22 17:55:32 · 1327 阅读 · 0 评论 -
Tensorboard使用
1、在prompt中打开目录tensorboard2、输入tensorboard --logit=./test13、最底下有网址,将网址复制到浏览器中打开原创 2019-06-23 18:40:49 · 149 阅读 · 0 评论 -
Eclipse基本使用
将现有的文件夹导入到Eclipse里,先新建空的project,然后import现有的文件夹到这个project中原创 2019-06-22 21:50:28 · 163 阅读 · 0 评论 -
安装opencv3.4.0
1、在网上下载opencv_python-3.4.0+contrib-cp36-cp36m-win_amd64.whl,2、cp36代表python版本,64是电脑,为什么是这个版本,因为3.4.1后有专利,3.4.1又没找到3、将opencv_python-3.4.0+contrib-cp36-cp36m-win_amd64.whl文件放到Scripts文件夹中4=打开prompt,打开S...原创 2019-06-22 15:06:26 · 700 阅读 · 0 评论 -
python+eclipse+pydev开发环境搭建
Java环境变量配置https://jingyan.baidu.com/article/08b6a591bdb18314a80922a0.html下载eclipsehttps://jingyan.baidu.com/article/6181c3e0d507ac152ef153f9.htmlpython和pydev关联,注意1、python找你之前安装好的python.exe2、将py...原创 2019-06-22 11:51:06 · 194 阅读 · 0 评论 -
Markdown讲解
https://www.jianshu.com/p/191d1e21f7ed转载 2019-05-09 15:16:43 · 110 阅读 · 0 评论 -
绘制灰度直方图
前辈写的不能直接用,自己改了改#include "cv.h"#include "highgui.h"#include "opencv2/imgproc.hpp"#include <opencv2/opencv.hpp>#include <stdio.h>#include <ctype.h>using namespace std;using nam..原创 2019-01-23 09:55:08 · 1796 阅读 · 0 评论 -
导数,积分---概率---线性代数
一、导数可以分析变化1 直线求导后得到斜率,对曲线求导可以得到各点的斜率,某一点的斜率=瞬间斜率2 电脑对图像中各点求导,变化剧烈的就是轮廓3 纵向长度差/横向长度差二、极限概念1 无限接近的值是极值三、连续性1 刨去无极限的和分母为零的2 极限存在且就是x=a那个函数值,它就是连续的3 d表示极小======积分是细分后求和,导数是细化概率一、联合分布:所有条件都成立...原创 2019-01-10 09:01:41 · 698 阅读 · 0 评论 -
Opencv 特征点检测 整理(Harris,FAST,SIFT , SURF等总结
一、Harris角点 角点是图像中最基本的一种关键点,它是由图像中一些几何结构的关节点构成,很多都是线条之间产生的交点。Harris角点是一类比较经典的角点类型,它的基本原理是计算图像中每点与周围点变化率的平均值。二、FAST角点 harris特征在算法复杂性上比较高,在大的复杂的目标识别或匹配应用上效率不能满足要求,OpenCV提供了一个快速检测角点的类FastFeatureDe...转载 2019-01-25 10:46:50 · 986 阅读 · 0 评论 -
opencv各种源码
https://blog.youkuaiyun.com/keith_bb/article/category/6119110转载 2019-01-19 10:12:23 · 3907 阅读 · 0 评论 -
ORB算法原理解读
本文为原创文章,转载请注明出处:http://blog.youkuaiyun.com/yang843061497/article/details/38553765绪论假如我有2张美女图片,我想确认这2张图片中美女是否是同一个人。这太简单了,以我专研岛国动作片锤炼出来的火眼金睛只需轻轻扫过2张图片就可以得出结论。但是,如果我想让计算机来完成这个功能就困难重重了:再性感的美女在计算机眼中也只是0-1组成的数...转载 2019-01-18 10:14:46 · 296 阅读 · 0 评论 -
解决from imutils import contours
去网站这里下载imutils-0.4.6,然后解压,将里面的imutils文件夹放到E:\Anaconda\Anaconda3\Lib\site-packages文件夹下原创 2019-06-27 16:21:15 · 3277 阅读 · 0 评论 -
安装keras和下载
https://www.lfd.uci.edu/~gohlke/pythonlibs/#opencv 或者 https://download.youkuaiyun.com/download/ngsford/10253390这里下载whl文件,放到Anaconda\Scripts 文件夹里,然后打开promot,打开Anaconda\Scripts,关键是输入e: ,然后 pip install 名称.whl...原创 2019-06-28 17:42:57 · 1000 阅读 · 0 评论
分享