自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 异步async工作原理

如果你定义接口时写的是而不是async def分发:主进程会将 8 个请求分给 4 个 Worker,每个 Worker 的排队队列里有 2 个任务。执行顺序严格的先后顺序(串行)。Worker 1会先开始处理“请求 1”。在“请求 1”完全执行完、返回结果之前,Worker 1 无法开始处理“请求 2”。现象:如果你有 4 个 Worker,你会看到 4 个请求在同时跑,另外 4 个请求在排队等前面的结束。比喻:厨房里有 4 个厨师(Worker),每个厨师面前放了 2 条鱼。

2025-12-22 23:28:38 894

原创 Uvicorn的多进程&Nginx的负载均衡 区别

如果你只有1 台服务器:你只需要用Uvicorn 的--workers就可以获得不错的性能。如果你有多台服务器:你必须用Nginx(或其他类似工具)来做入口。最佳实践:Nginx 挡在最前面,后端每台机器上用 Uvicorn 跑多进程。思考题:如果你在代码里改了一个 Bug,你是需要重启 Nginx,还是需要重启 Uvicorn?(答案是:只需要重启每台服务器上的Uvicorn。Nginx 只是个传声筒,它并不关心你的 Python 代码改了什么。

2025-12-22 21:11:27 307 1

原创 并发数、QPS与Response Time的关系

指标关注点目标形象理解QPS系统的速度越高越好输送带转多快响应时间 (RT)系统的快慢越短越好单次操作等多久并发数系统的承载量视硬件而定房间里同时站多少人。

2025-12-20 16:55:58 270

原创 模型的热启动VS冷启动

模型服务刚启动或长时间空闲后的。

2025-12-20 13:44:54 228

原创 Milvus同时支持语义检索&元数据过滤查询

首先,定义数据中的字段。向量字段用于相似性搜索,而标量字段用于过滤(元数据)。字段名数据类型用途id主键 (Primary Key)唯一标识符。embedding(128 维)用于语义搜索的向量字段。categoryVARCHAR用于过滤的标量字段(元数据)。priceFLOAT用于过滤的标量字段(元数据)。

2025-12-06 23:43:06 581

原创 Weaviate&BM25

对于单个文章,Weaviate不会存储一个预先计算好的 BM25 稀疏向量。原始文本和元数据。文档级别的统计数据(如词频和长度),这些数据会被编译到 Lucene 风格的倒排索引中。用户输入 Query。利用 Query 词项,通过倒排索引快速找到包含这些词项的文档。结合文档统计数据(TF,∣D∣|D|∣D∣)和全局统计数据NNNavgdlavgdl),即时计算出Query 与该文档的 BM25 分数。稠密向量用于语义相似度,而倒排索引用于 BM25 关键词匹配。

2025-12-06 14:46:15 822

原创 什么是payload

Payload = 真正要传/要处理的核心数据内容,不包括协议头、元信息、包装结构等。

2025-11-29 11:35:00 375

原创 函数一定要返回值么?如何取返回值?

如果函数只做操作(如打印、写文件、修改对象),通常不返回值(或返回 None),调用时不需要“取值”。如果函数用于计算或获取数据,就应该 return 结果,调用者通过变量接收。

2025-11-27 23:41:57 296

原创 Python——类

简单来说:用类(Class)来封装「有状态的数据 + 相关行为」,用函数(方法/Function)来封装「无状态的、一次性的操作」。下面从多个角度帮你判断。需要维护状态(数据)你有一组相关的数据,并且这些数据会随着操作而变化。# 示例:银行账户self.balance = balance # 状态self.balance += amount # 修改状态💡 如果没有“余额”这个需要长期保存并修改的状态,用函数就够了。多个函数需要操作同一组数据。

2025-11-27 23:28:14 495

原创 什么是Bind Mount

简单来说,当你在一个 chroot 环境中运行程序时,该程序会“以为”自己所在的目录就是系统的根目录(/),而无法访问该目录之外的任何文件或资源。这就像为程序创建了一个“沙盒”或“牢笼”。扩展:Chroot 环境(Change Root)是 Linux/Unix 系统中一种隔离机制,它通过更改进程的根目录(/)来限制其对文件系统的访问范围。那么,该 shell 进程会把。

2025-11-19 13:59:26 502

原创 什么是推理引擎

推理引擎(Inference Engine)问题回答什么是推理引擎?是用来加载和运行模型的软件系统(如 vLLM、llama.cpp)模型参数加载到内存 = 构成推理引擎?❌ 不是。这只是推理引擎工作后的结果状态我需要自己写推理引擎吗?一般不需要。直接使用成熟的开源引擎即可如何选择推理引擎?看需求:性能、硬件、是否要 OpenAI API 兼容等如果你把“推理引擎”理解为“让大模型能说话的运行环境”,就更容易理解它和“模型参数”之间的关系了:🔧推理引擎是“播放器”🎬。

2025-11-17 21:37:32 257

原创 环境安装之CUDA版本选择

开发时主要关注 nvcc --version 显示的版本(实际安装的 CUDA 工具包版本,影响编译)。nvidia-smi 显示的是驱动所支持的上限(确保安装的 CUDA 版本不超过此值即可)。信息来源显示内容核心用途典型场景实际安装的工具包版本(如 12.1)判断 “当前要装的软件(如 PyTorch)该选哪个 CUDA 版本”安装 PyTorch、TensorFlow 等框架时nvidia-smi驱动支持的最高版本(如 12.8)

2025-10-20 20:53:40 391

原创 大模型的数据精度区别

在深度学习、高性能计算等领域,直接影响模型的计算速度、内存占用和推理 / 训练精度。FP32、FP16、BF16、INT8 是目前最常用的四种精度格式,核心区别体现在。

2025-10-09 21:49:59 482

原创 GPU和CUDA的关系

GPU= 一群能同时干活的厨师(硬件)CUDA= 分工和协作的管理体系(软件+编程框架)CPU= 店长,负责接单和调度GPU 提供了算力,CUDA 让开发者能方便地利用这些算力。这里有一张小图,形象展示了CPU、CUDA 和 GPU 的关系CPU = 店长:负责接单和整体调度CUDA = 总厨/管理系统:负责分工、安排工具和流程GPU = 厨师团队:一群人同时并行干活就像厨房里做大锅饭一样,CPU 下单 → CUDA 分工 → GPU 干活。

2025-09-21 00:06:58 390

原创 为什么本地部署模型推荐在Linux系统而不是Windows系统

在。

2025-09-20 20:12:12 466

原创 什么是“与 OpenAI API 兼容”

官方 SDK = OpenAI 自己出品、第一时间同步 API 功能、文档与向后兼容都有保障的那套“标准客户端库”。只要文档里出现或,说的就是它。

2025-09-20 20:02:49 888

原创 为什么python不需要main函数作为程序的入口

不需要强制main():Python 的设计哲学是简单直接。它从文件顶部开始执行所有代码,无需一个预定义的入口函数。推荐使用main()将主要逻辑封装在main()函数中,使代码更清晰、更模块化。使用作为“逻辑入口点”,确保main()函数只在脚本被直接运行时才被调用。这使得你的.py文件既可以作为独立的脚本运行,也可以作为可导入的模块被其他代码安全地使用,而不会产生意外的副作用(如运行测试代码)。因此,Python 的“不需要main()”体现了其脚本语言的灵活性和简洁性,而“使用。

2025-09-13 10:06:43 798

原创 提示词工程 VS 上下文工程

上下文工程:给模型高效地提供所需的资料(例如RAG技术,用于检索到最相关的信息片段)。提示词工程:设计稳定输出的模板。提示词是上下文的一部分。

2025-09-09 22:57:22 135

原创 NLP任务为什么使用LayerNorm,而不是BatchNorm

图1为一个batch_size(N个)句子的语义特征张量 三维图.图1。

2025-08-24 22:27:08 349

原创 什么是“在服务器上开发“

服务器开发指的是你通过远程连接(如 SSH、VS Code Remote、JupyterHub 等)到一台云端或本地的服务器上,在那台服务器的操作系统上进行代码编写、运行和测试。

2025-08-24 22:06:06 665

原创 for-in-range语法屡屡犯错

你写的是无意义的,因为i会被range重新赋值。这种写法可能是受其他语言或while循环习惯的影响。在 Python 中,已经自动处理了循环变量的更新,通常不需要手动干预。Python 的for循环不需要手动更新循环变量,它是基于可迭代对象的自动遍历。如果需要对循环变量更精细的控制(如 C 风格的for循环),可以用while循环替代。修改for循环内的变量不会影响迭代过程(与 C 不同)。

2025-04-20 01:04:23 906

原创 Anaconda和PyCharm

Anaconda 和 Pycharm 的关系。

2025-04-07 09:04:30 758

原创 标准化,归一化,正态化

标准化和归一化其实本质上都是对数据的线性变换,而正态化是对数据的非线性变换,可以改变数据的分布形状.

2024-11-14 19:58:30 3592 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除