1.创建父文件夹kimi-model
2.下载模型文件
cd kimi-model
git clone https://github.com/MoonshotAI/Kimi-Audio.git
下载完成后生成了Kimi-Audio文件夹
3.下载模型库
modelscope download --model moonshotai/Kimi-Audio-7B-Instruct README.md --local_dir ./dir
注意看modelscope保存的位置,需要将modelscope下载的文件与第二步的代码放在同一个父目录下,我这里创建了一个moonshotai文件见,然后将modelscope下载的文件移到此目录下
4.安装依赖
cd Kimi-Audio
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
5.下载glm4_tokenizer
modelscope download --model ZhipuAI/glm-4-voice-tokenizer
cd kimi-model/Kimi-Audio/kimia_infer/models/tokenizer
mv -r glm-4-voice-tokenizer ./
6.修改配置
此处有两处修改:
1.Kimi-Audio/infer.py
将原码中
model_path="./../moonshotai/Kimi-Audio-7B"
更改为
model_path= '/kimi-model/moonshotai/Kimi-Audio-7B' # 此处增加为绝对地址,保证能找得到该路径
2.Kimi-Audio/kimia_infer/api/prompt_manager.py
将第17行的
self.audio_tokenizer = Glm4Tokenizer("THUDM/glm-4-voice-tokenizer")
改为
self.audio_tokenizer = Glm4Tokenizer('kimi-model/Kimi-Audio/kimia_infer/models/tokenizer/glm-4-voice-tokenizer') #此处也是绝对地址
7.执行代码
python3 infer.py