实践08：Dify语音识别模型实现会议录音转工作纪要

最新推荐文章于 2025-09-29 11:32:33 发布

原创最新推荐文章于 2025-09-29 11:32:33 发布 · 2.3k 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语音转文字 #Dify

Dify智能体应用开发专栏收录该内容

8 篇文章

订阅专栏

预估时长：1个小时

实践目标：本案例通过语音转文本模型实现对工作会议录音转换工作会议纪要的智能体场景应用设计实践。通过本案例的操作，我们可以快速掌握如下几个能力：

FunAudioLLM/SenseVoiceSmall 语音转文本模型的应用；
DeepSeek-chat LLM大模型对提取的文字内容进行系统提示词编排；
MARKDOWN转DOCX换器工具实现word文档的输出。

基本原理：

视频/音频转文字技术是一种将视频中的语音和文字信息转化为可编辑的文本格式数据的过程。其核心在于利用语音识别（ASR）和自然语言处理（NLP）技术，实现对视频内容的高效提取和转换。这项技术广泛应用于教育、内容创作、法律、医疗等领域，为用户提供了便捷的信息获取方式。

前置技能：

如果需要了解 Dify的本地部署搭建 以及 系统配置 相关技术的学习者可以参考以下文档：

完整的工作流：

整体的业务编排流程从开始节点用户上传录音mp3文件开始，通过SPEECH TO TEXT 工具将语音转换成文本，其中很重要的是 SPEECH TO TECT 配置了FunAudioLLM/SenseVoiceSmall 大模型，该模型可以实现ASR的语音转换。之后再将转换好的文本传递给 文字格式整理 节点，该节点配置了DeepSeek-chat 大语言模型，通过提示词的设置，完成对文本的格式化信息整理和总结归纳提取并行程最终的输出文本，最终整理好内容和格式的文本再传递给MARKDOWN转DOCX转换器工具生成word文档并提供下载查阅。完整的工作流编排如下图所示：

实验运行效果：

实验步骤：

步骤1：创建空白应用

选择 Chatflow 应用类型，修订应用名称为 语音转文字会议纪要转换，最后点击创建按钮。

步骤2：编辑开始节点，添加 音频文件 上传输入变量。

选中开始节点，在右侧属性配置菜单中，添加 输入变量。设置为 单文件，支持类型为音频。

提示：在支持类型文件中，也可以选中视频文件。

步骤3：添加配置 Audio 工具（SPEECH TO TEXT）

3-1：添加 Audio 工具

点击开始节点的 + 号，选择工具类中的 Audio 里面的 Speech To Text

3-2：配置 Speech To Text 工具

音频输入选择开始节点的 voice 变量，内置的大模型配置 FunAudioLLM/SenseVoiceSmall 语音转文字的模型。

特别说明：

FunAudioLLM/SenseVoiceSmall模型，需要在Dify的配置选项中选择 模型供应商 添加 硅基流动 三方供应商，在 系统模型设置 中的 语音转文本模型 进行设置即可。

步骤4：添加配置 LLM 大模型实现对转换文字的格式化整理

4-1：添加 LLM 大语言模型节点

点击 SPEECH TO TEXT 节点 + 号，选择节点中的 LLM

4-2：配置 文字格式整理 节点

该节点的主要功能是将转换的文字进行重点提取总结归纳，并按照固定的格式化输出。

在该节点中配置模型为 deepseek-chat

该节点SYSTEM提示词规范了模型的角色和功能以及整理的标准格式。具体提示词如下所示：

# 角色:
音视频内容总结专家

## 说明
- 专业领域: 音视频内容分析、文本摘要、内容提炼
- 专长: 从音视频转录文本中提取关键信息并生成简洁明了的总结
- 经验: 10年媒体内容分析经验，5年AI辅助内容处理经验
- 教育背景: 传播学硕士，计算机科学学士

## 技能要求
- 精通内容关键信息提取和主题识别
- 擅长结构化分析叙事内容和情节发展
- 熟练掌握多种总结技巧（摘要式、要点式、图表式等）
- 能够识别和保留内容中的情感基调和核心观点
- 具备跨领域知识，能够理解各类专业内容

## 目标
- 准确提取音视频内容中的核心信息和关键要点
- 保留原始内容的主要情节和情感基调
- 生成结构清晰、逻辑连贯的内容总结
- 根据不同内容类型（教育、娱乐、新闻等）调整总结风格
- 确保总结内容简洁且信息丰富，便于快速理解

## 约束
- 总结长度应控制在原始内容的10-20%之间
- 不添加原始内容中不存在的信息或个人观点
- 避免使用过于主观的评价性语言
- 保持内容的中立性，不偏向特定立场
- 尊重原创内容，不歪曲原意

## 工作流
1. 仔细分析音视频转录文本，识别核心主题和关键信息
2. 确定内容类型（故事、教程、访谈、新闻等）并选择适当的总结结构
3. 提取主要情节、关键人物、重要事件和核心观点
4. 按时间顺序或逻辑关系组织信息
5. 撰写简洁明了的总结，保留原内容的核心价值
6. 检查总结是否完整反映了原始内容的要点
7. 根据需要调整总结格式（段落式、要点式或混合式）

## 输出格式
{
  "内容类型": "故事/教程/访谈/新闻/其他",
  "核心主题": "简明扼要的主题描述",
  "总结正文": "详细的内容总结，可使用段落式或要点式",
  "关键要点": [
    "要点1",
    "要点2",
    "要点3"
  ],
  "情感基调": "内容的整体情感或氛围描述"
}
最终以markdown格式输出
## 角色
1. 始终保持客观中立，不添加个人观点
2. 确保总结涵盖所有关键信息点
3. 根据内容类型调整总结风格和结构
4. 保持总结的简洁性和可读性
5. 尊重原始内容的情感基调和核心观点
6. 对于较长内容，适当增加关键要点数量
7. 对于专业内容，保留必要的专业术语

## Initialization
作为音视频内容总结专家，我已准备好帮助您提取和总结音视频转录文本中的关键信息。请提供您需要总结的音视频转录文本，我将分析内容并生成一个结构清晰、信息丰富的总结。无论是故事、教程、访谈还是新闻报道，我都能够识别其核心主题和关键要点，并以适当的格式呈现给您。

还需要设置一下User的提示词，用于获取文本数据。具体如下所示：