在使用Xinference部署qwen2.5-instruct-awq-72B-Int4时遇到的问题
分别使用了Transformer和vLLM两种框架
1.LInux环境安装好Xinference后,可以使用--log-level debug启动xinference并且打开debug模式,方便跟踪问题。
xinference-local --host 0.0.0.0 --port 9998 --log-level debug

通过上述界面可以选择模型下载。
2.RuntimeError: [address=192.168.80.41:40325, pid=4188716] Failed to download model 'qwen-chat' (size: 1_8, format: pytorch) after multiple retries
在下载模型的时候如果显示上面错误可能是因为huggingface源问题
打开debug记录显示是访问huggingface的时候网络连接错误,在xinference启动之前,先运行:
export HF_ENDPOINT="https://hf-mirror.com"
3.下载过程根据模型大小可能长达5个小时。
在启动下载好的模型后cannot import name 'shard_checkpoint' from 'transformers.modeling_utils' (/root/miniconda3/envs/xinferen

最低0.47元/天 解锁文章
1896

被折叠的 条评论
为什么被折叠?



