
AI
文章平均质量分 70
AI相关服务部署,模型推理,AI应用等~
小黑小黑白
这个作者很懒,什么都没留下…
展开
-
解决TrueNas Scale部署immich后人脸识别失败,后台模型下载异常,immich更换支持中文搜索的CLIP大模型
这个问题搞了我几天终于解决了,搜遍网上基本没有详细针对TrueNas Scale部署immich应用后,CLIP模型镜像下载超时导致人脸识别失败,以及更换支持中文识别的CLIP模型的博客。现象:TrueNas Scale安装immich官方镜像应用后,导入图片人脸识别失败,中文识别更不行,查看immich日志发现ViT-B-32__openai模型huggingface.co镜像拉取超时,上传模型文件,改换XLM-Roberta-Large-Vit-B-16Plus模型,支持中文以及人脸识别原创 2024-06-02 16:06:13 · 6682 阅读 · 9 评论 -
Linux系统docker部署Ollama本地大模型及部署Hugging Face开源模型,ollama相关注意点,非ollama模型创建,模型量化,显存建议
linux系统docker部署ollama,ollama本地部署Modelfile文件构建,ollama运行Hugging Face模型,ollama自有模型是通过量化的,ollama默认Q4_K_M量化,ollama模型创建,对显存要求不高,如果显存未拉满,可以考虑去Hugging Face上下载未量化或者更高精度的量化模型,然后构建成ollama模型运行。进入ollama官网,进入对应模型详情页,选择对应参数的模型,复制对应ollama run命令,在ollama容器中执行。ollama不支持张量并行。原创 2025-03-20 13:03:35 · 1573 阅读 · 0 评论 -
ESXI Ubuntu服务器装NVIDIA显卡驱动提示NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA dri
R730安装Tesla T10显卡驱动,显卡直通给ESXI虚拟机里开放的Ubuntu服务器,排除了各种情况,各种操作后reboot重启Ubuntu服务器也不管用,后面想到重启了R730服务器就可以了。nvidia-smi NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.原创 2025-01-23 18:55:22 · 704 阅读 · 1 评论 -
本地部署VLLM预分配显存与Ollama OLLAMA_KEEP_ALIVE释放显存的对比以及思考,并行推理,张量并行
ollama不支持GPU张量并行,于是打算把ollama替换到vllm平台进行推理。但研究了发现由于vllm是预分配显存,--gpu_memory_utilization参数设置比例,待机会占用不少显存,没跑推理时显卡待机功耗就比较高,实测T10显卡每张卡大概50几W功耗,而ollama的OLLAMA_KEEP_ALIVE默认是5分钟空闲会释放模型显存,还能自定义时间,到一定时间未调用推理,会主动释放,释放显存后显卡待机功耗每张10W,vllm强在多线程并行推理性能很强,可以说并行推理秒杀ollama原创 2025-03-20 15:08:53 · 808 阅读 · 0 评论