Kimi-audio-7B模型推理过程

淘气淘的宝宝

于 2025-07-23 15:31:52 发布

阅读量65

点赞数 1

CC 4.0 BY-SA版权

文章标签：语音识别

本文链接：https://blog.youkuaiyun.com/csdn_kelly/article/details/149572382

1.创建父文件夹kimi-model

2.下载模型文件

cd kimi-model

git clone https://github.com/MoonshotAI/Kimi-Audio.git

下载完成后生成了Kimi-Audio文件夹

3.下载模型库

modelscope download --model moonshotai/Kimi-Audio-7B-Instruct README.md --local_dir ./dir

注意看modelscope保存的位置，需要将modelscope下载的文件与第二步的代码放在同一个父目录下，我这里创建了一个moonshotai文件见，然后将modelscope下载的文件移到此目录下

4.安装依赖

cd Kimi-Audio
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

5.下载glm4_tokenizer

modelscope download --model ZhipuAI/glm-4-voice-tokenizer
cd kimi-model/Kimi-Audio/kimia_infer/models/tokenizer
mv  -r glm-4-voice-tokenizer ./

6.修改配置

此处有两处修改：

1.Kimi-Audio/infer.py

将原码中
model_path="./../moonshotai/Kimi-Audio-7B"
更改为
model_path= '/kimi-model/moonshotai/Kimi-Audio-7B' # 此处增加为绝对地址，保证能找得到该路径

2.Kimi-Audio/kimia_infer/api/prompt_manager.py


 将第17行的
self.audio_tokenizer = Glm4Tokenizer("THUDM/glm-4-voice-tokenizer")
改为
self.audio_tokenizer = Glm4Tokenizer('kimi-model/Kimi-Audio/kimia_infer/models/tokenizer/glm-4-voice-tokenizer') #此处也是绝对地址

7.执行代码

python3 infer.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

淘气淘的宝宝

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

全球 AI 大模型月度回顾 · 2024年6月

AI天才研究院

07-02

2057

目录全球 AI 大模型月度回顾 · 2024年6月国外篇Stability AI 推出音频生成模型 Stable Audio OpenMeta 发布最新RAG评价基准Apple 推出全新个性化智能系统 Apple intelligenceOpenAI 宣布与 Apple 合作，接入 Apple 生态Stability AI 推出最先进文生图大模型 SD 3 MediumLuma AI 推出AI视频生成模型 Dream MachineNVIDIA 开源通用大模型 Nemotron 3400亿参数版本Googl

最全LLaMA Factory大模型微调实战教程

Science prince的博客

05-06

129

学习率通常在1e-5 到 3e-5之间，于大型语言模型（如 BERT、GPT 等）的微调，常用的学习率范围是 2e-5 到5e-5，从一个相对较小的值开始，如 2e-5。验证集的数据不参与模型的训练，仅用于在训练过程中监控模型的表现，以防止过拟合和调整模型的超参数，常见的比例有10%、20%等，具体选择取决于数据集的大小和具体的应用场景。而对于更复杂的任务，如文本生成或翻译，可能需要更长的长度。如果原始数据集很大，设置一个合理的最大样本数可以减少训练时间，如果计算资源有限，较小的样本数可以加快训练速度。

参与评论您还未登录，请先登录后发表或查看评论

Kimi-Audio简介

qq_37519605的博客

05-07

1235

Kimi-Audio 是一种通用音频基础模型，能够在单一统一框架内处理多种音频处理任务。

月之暗面开源 Kimi-Audio-7B-Instruct，同时支持语音识别和语音生成

weixin_41446370的博客

04-26

3695

将输入音频转换为：使用向量量化的离散语义标记（12.5Hz）。从 Whisper 编码器获得的连续声学特征（降采样至 12.5Hz）。Audio LLM: 基于转换器的模型（从 Qwen 2.5 7B 等预先训练好的文本 LLM 初始化），具有处理多模态输入的共享层，然后是并行头，用于自回归生成文本标记和离散音频语义标记。: 使用流匹配模型和声码器（BigVGAN）将预测的离散语义音频标记转换成高保真波形，支持采用前瞻机制的分块流，以降低延迟。

Kimi-Audio音频大模型介绍、本地部署与开发

super_mochi1

04-28

4942

Kimi Audio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。

月之暗面开源-音频理解、生成和对话生成模型：Kimi-Audio-7B-Instruct

直达开源前线，冲冲冲！

04-27

698

Kimi - Audio 作为一个功能强大的通用音频基础模型，凭借其出色的技术特点和方便的使用方式，在音频处理领域具有广阔的应用前景。

Kimi-Audio：Kimi团队开源最强音频大模型，横扫15项榜单，拿下第一！

sherlockMa的博客

04-29

1552

Kimi-Audio，这是一个开源的音频基础模型，在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器（Audio tokenizer），并设计了一种新型的基于LLM的架构，该架构以连续特征作为输入，以离散标记作为输出，并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集，包含超过1300万小时的音频数据，涵盖语音、声音和音乐等多种模态，并构建了一个用于构建高质量和多样化后训练数据的管道。

Kimi-Audio 技术报告

栖客

04-28

1181

Kimi团队我们介绍了Kimi-Audio，这是一个开源的音频基础模型，在音频理解、生成和对话方面表现出色。我们详细描述了构建Kimi-Audio的实践，包括模型架构、数据整理、训练配方、推理部署和评估。具体而言，我们利用了一个12.5 Hz的音频分词器，设计了一种基于LLM的新架构，该架构以连续特征作为输入，离散标记作为输出，并开发了一种基于流匹配的块状流式解码器。我们整理了一个预训练数据集，其中包括超过1300万小时的音频数据，涵盖了广泛的模态，包括语音、声音和音乐，并构建了一条管道来构建高质量和多样化

KIMI-audio技术报告 20250425

ttkkdd的博客

05-09

718

受人工智能发展水平的限制，传统音频建模往往将每个音频处理任务（如语音识别、情感识别、声音事件检测和语音对话等）分开处理。然而，音频本质上具有序列性，并且语音与文本之间存在严格的对应关系，这使得在音频建模中利用大语言模型（LLMs）的快速发展成果成为可能。正如自然语言处理所经历的那样，音频处理也正迅速从针对不同任务的独立模型，向能够处理多种任务的通用模型转变。

Muyan-TTS & Kimi-Audio

林宋的搬砖流水账

05-13

722

arch:

OpenBayes 一周速览｜基于 LLM，Kimi-Audio 更能识别情感的语音模型；Orpheus-TTS 零样本克隆语音，实现自定义语音对话

OpenBayes的博客

05-29

664

基于 LLM，Kimi-Audio 更能识别情感的语音模型；Orpheus-TTS 零样本克隆语音，实现自定义语音对话

Ming-Omni：统一的多模态感知与生成模型（Inclusion AI, 蚂蚁集团）

u014546828的博客

06-13

1235

Ming-Omni：统一多模态感知与生成模型本文提出了Ming-Omni，一个突破性的统一多模态模型，能够同时处理图像、文本、音频和视频输入，并具备语音与图像生成能力。该模型采用专用编码器提取各模态特征，通过创新的MoE架构（配备模态专属路由器）实现多模态信息的统一处理。Ming-Omni是首个在模态支持上媲美GPT-4o的开源模型，相关代码和权重已公开。

5. 进阶关卡-茴香豆：企业级知识库问答工具

lldhsds的专栏

01-20

1216

茴香豆是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。

A316-LS-MIC-V2：USB AI直播麦克风评估板技术解析

2402_85006673的博客

07-22

192

A316-LS-MIC-V2是一款基于XMOS XU316技术的USB AI直播麦克风评估板，专为高质量语音采集和处理设计。该产品集成麦克风阵列和AI音频处理系统，支持AI降噪、回声消除和自动增益控制等核心功能，适用于直播设备、会议系统和语音交互设备开发。硬件配置包括A316-Codec-V1模组、全向麦克风阵列及USB音频接口，提供UAC 1.0/2.0协议支持。配套完整开发资源，包括技术文档、测试数据和参考设计，为开发者提供专业语音处理评估平台。

如何构建FunASR的本地语音识别服务

当 AI 开始写文章、绘星空，甚至预测未来，您还在旁观吗？这里将剖开人工智能的思考逻辑，拆解 AI 创作的底层密码，也聊聊人工智能里的人文温度。每篇都有让你拍案的细节，快来解锁 AI 时代的神奇世界！

07-22

427

FunASR 是阿里巴巴达摩院开源的高性能语音识别工具包，支持。

什么是“差分“？

qq_63041110的博客

07-21

387

建议用示波器实测差分信号（比如USB数据线），你会看到两条镜像对称的波形，它们的差值才是真实数据。动手一次胜过读十遍理论！：在嘈杂的菜市场听朋友说话。这就是差分电压的本质！

我的第一个开源项目 -- 实时语音识别工具

最新发布

weixin_43680337的博客

07-22

879

这是我的第一个开源项目，是我一直想做的一个小工具：端到端实时语音转文字系统。通过小程序和H5页面，用户可以实时采录音频，通过ws上传到java的netty server。Java在经过权限验证、流量控制等操作之后，通过gRPC流式发送给python服务。python项目通过开源的模型实时识别文字结果，然后发送给java,java 发给客户端实时展示。

WebkitSpeechRecognition 语音识别

weixin_39621570的博客

07-21

858

使用 WebkitSpeechRecognition，您可以让用户通过说话来与您的 Web 应用程序进行交互，这可以使您的应用程序更加易于使用，也可以为用户提供更加人性化的体验。WebkitSpeechRecognition 是一种有用的 JavaScript API，它可以使您的 Web 应用程序更加易于使用，并为用户提供更加人性化的体验。我们使用 onresult 事件来监听语音识别结果，并将其设置为搜索框的值。在上面的代码中，我们使用 start 方法开始语音识别，使用 stop 方法停止语音识别。

Spring AI 项目实战（十八）：Spring Boot + AI + Vue3 + OSS + DashScope 实现高效语音识别系统（附完整源码）

博客

07-19

722

本文介绍基于 Spring Boot AI 集成阿里云 OSS 与 DashScope 语音识别 API 的高效语音识别系统。该系统通过云端存储音频文件，解决传统本地存储的性能瓶颈与存储压力，支持同步 / 异步语音转文本，实现文件自动生命周期管理。文中详述技术选型、架构设计、核心代码实现（含前后端及配置）、部署流程，展现其高并发处理、可靠文件管理能力，适用于客服、教育等企业级场景，为语音识别应用提供实用解决方案。

Kimi-Audio if v not in ALL_PARALLEL_STYLES: TypeError: argument of type 'NoneType' is not iterable

06-04

### 问题分析与解决方案在处理 `Kimi-Audio` 的代码时，如果遇到 `TypeError: 'NoneType' object is not iterable` 错误，通常是因为某个函数或方法返回了 `None`，而后续代码尝试将其作为可迭代对象进行操作。这种错误常见于以下场景： 1. 某个变量未正确初始化。 2. 函数调用未能成功返回预期的值（例如，条件不满足导致直接返回 `None`）。 3. 数据处理逻辑中存在缺失值或空值。根据提供的引用内容[^4]，`Kimi-Audio` 提供了评估工具包 `Kimi-Audio-Evalkit` 和生成能力测试数据集 `Kimi-Audio-Generation-Testset`。这些工具可能涉及复杂的音频处理和模型评估逻辑，因此需要仔细检查相关代码路径以定位问题。 --- ### 解决步骤 #### 1. 检查 `ALL_PARALLEL_STYLES` 的定义确保 `ALL_PARALLEL_STYLES` 是一个有效的可迭代对象。如果其值为 `None` 或未正确初始化，可能会导致上述错误。可以通过以下代码验证其类型和值： ```python if ALL_PARALLEL_STYLES is None: raise ValueError("ALL_PARALLEL_STYLES is not initialized.") ``` #### 2. 调试返回值如果 `ALL_PARALLEL_STYLES` 是通过函数生成的，需确认该函数是否在所有情况下都返回有效值。例如，假设函数名为 `get_styles()`，可以添加以下调试代码： ```python styles = get_styles() if styles is None: print("Warning: get_styles() returned None.") else: for style in styles: # 处理每个风格 pass ``` #### 3. 检查数据集加载逻辑根据引用[^4]，`Kimi-Audio-Generation-Testset` 是一个中文为主的生成能力测试数据集。如果加载数据集的代码存在问题，可能导致某些变量被赋值为 `None`。建议检查数据加载部分，例如： ```python from kimi_audio_evalkit import load_dataset dataset = load_dataset("Kimi-Audio-Generation-Testset") if dataset is None: raise ValueError("Failed to load the dataset.") ``` #### 4. 使用断言捕获问题在关键代码路径中使用断言，确保变量始终符合预期类型。例如： ```python assert isinstance(ALL_PARALLEL_STYLES, (list, tuple)), "ALL_PARALLEL_STYLES must be a list or tuple." ``` --- ### 示例代码修复以下是一个可能的修复示例，假设问题出在 `get_styles()` 函数中： ```python def get_styles(): try: # 假设从某个数据源获取风格列表 styles = fetch_styles_from_source() if not styles: return [] # 返回空列表而非 None return styles except Exception as e: print(f"Error fetching styles: {e}") return [] ALL_PARALLEL_STYLES = get_styles() # 确保后续代码安全运行 if ALL_PARALLEL_STYLES: for style in ALL_PARALLEL_STYLES: process_style(style) else: print("No styles available.") ``` --- ### 总结 `TypeError: 'NoneType' object is not iterable` 通常是由于变量未正确初始化或函数返回值异常引起的。通过检查变量定义、函数返回值以及数据加载逻辑，可以有效定位并解决此类问题。此外，合理使用断言和异常处理机制能够提高代码的健壮性。 --- ###