- 博客(6)
- 收藏
- 关注
原创 大模型下载+部署+监控+压测
注:ollama可以直接拉模型也很方便从下载要使用的模型安装拉取 vllm 镜像基于conda环境安装vllm检查vllm部署与验证部署 Open API 服务服务验证调用对话服务搭建 ollama 环境模型准备:上传模型:模型使用略安装GPU 加速需安装对应 cuda 版本 (与 cpu 版本选一个即可)可安装仅限 cpu 版本,看文档部署与单次推理(AI生成的代码,也有封装更好的接口)
2025-10-23 16:12:55
1014
1
原创 大模型推理显存占用估算,两种方式对比
两种估算方式的核心差异在于 KV-cache 计算上的差异,kv-cache 关注多头注意力MHA或分组查询注意力GQA的估算。基于MHA是粗粒度的估算,而基于 GQA 是细粒度的估算,主流大模型大模型普遍采用GQA,所以使用 GQA 会更接近真实推理占用,使用粗粒度的估算基本不会OOM。
2025-10-23 11:33:33
821
原创 MQ 启动问题
检查 classpath 和 path 是否设置好 jdk8或11 可以删除异常得jdk路径。2.1.修改bin目录下 runbroker.cmd 和 runserver.cmd 文件。修改字段(先修改为 .txt 格式改完后修改回 .cmd 文件)1.1.配置 JAVA_HOME(不支持jdk17)1.2.配置 ROCKETMQ_HOME。1.获取 RocketMQ 二进制包后设置环境变量。3. jdk 版本问题。
2025-02-18 13:54:06
238
原创 Docker安装以及镜像配置相关问题
!!!!!!1.2.3.4.阿里云镜像配置(把注释删掉!注:在使用华为云的EulerOS系统时无法通过npm的对docker的一些支持进行安装,只能通过dnf命令来执行, 进入到阿里云控制台搜索关键字【】—> 【】—>左边菜单栏镜像工具—>镜像加速器—>复制加速器地址。
2024-11-20 17:48:26
454
原创 Minio 的linus服务器时钟和本地不一致问题
表示客户端请求的时间与 MinIO 服务器的时间差异过大。这通常是由于客户端和服务器的系统时钟不同步造成的。相关的软件包及其版本。输出的结果可能类似于。——在 CentOS 系统上检查已安装的。表示这是为 CentOS 7 构建的包,命令来验证安装并查看安装的版本。另外,你也可以使用以下命令来检查。这个命令会列出所有已安装的与。表示这是 64 位版本的包。服务正在运行,你将看到类似。——如果你还没有安装。安装完成后,再次运行。
2024-11-14 10:55:13
827
1
原创 VScode连接git仓库分支乱的问题
2.添加远程仓库url并填写存储库名称我这里填了origin。1.vscode建立远程连接。3.如图建立分支联系。
2024-11-08 21:12:08
378
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅