在使用Xinference部署qwen2.5-instruct-awq-72B-Int4时遇到的问题
分别使用了Transformer和vLLM两种框架
1.LInux环境安装好Xinference后,可以使用--log-level debug启动xinference并且打开debug模式,方便跟踪问题。
xinference-local --host 0.0.0.0 --port 9998 --log-level debug
通过上述界面可以选择模型下载。
2.RuntimeError: [address=192.168.80.41:40325, pid=4188716] Failed to download model 'qwen-chat' (size: 1_8, format: pytorch) after multiple retries
在下载模型的时候如果显示上面错误可能是因为huggingface源问题
打开debug记录显示是访问huggingface的时候网络连接错误,在xinference启动之前,先运行:
export HF_ENDPOINT="https://hf-mirror.com"
3.下载过程根据模型大小可能长达5个小时。
在启动下载好的模型后cannot import name 'shard_checkpoint'