实践08:Dify语音识别模型实现会议录音转工作纪要

预估时长:1个小时

实践目标:本案例通过语音转文本模型实现对工作会议录音转换工作会议纪要的智能体场景应用设计实践。通过本案例的操作,我们可以快速掌握如下几个能力:

  1. FunAudioLLM/SenseVoiceSmall 语音转文本模型的应用;
  2. DeepSeek-chat LLM大模型对提取的文字内容进行系统提示词编排;
  3. MARKDOWN转DOCX换器 工具实现word文档的输出。

基本原理:

视频/音频转文字技术是一种将视频中的语音和文字信息转化为可编辑的文本格式数据的过程。其核心在于利用语音识别(ASR)和自然语言处理(NLP)技术,实现对视频内容的高效提取和转换。这项技术广泛应用于教育、内容创作、法律、医疗等领域,为用户提供了便捷的信息获取方式。

前置技能:

如果需要了解 Dify的本地部署搭建 以及 系统配置 相关技术的学习者可以参考以下文档:

 完整的工作流:

整体的业务编排流程从开始节点用户上传录音mp3文件开始,通过SPEECH TO TEXT 工具将语音转换成文本,其中很重要的是 SPEECH TO TECT 配置了FunAudioLLM/SenseVoiceSmall 大模型,该模型可以实现ASR的语音转换。之后再将转换好的文本传递给 文字格式整理 节点,该节点配置了DeepSeek-chat 大语言模型,通过提示词的设置,完成对文本的格式化信息整理和总结归纳提取并行程最终的输出文本,最终整理好内容和格式的文本再传递给MARKDOWN转DOCX转换器工具生成word文档并提供下载查阅。完整的工作流编排如下图所示:

实验运行效果:

实验步骤:

步骤1:创建空白应用

选择 Chatflow 应用类型,修订应用名称为 语音转文字会议纪要转换,最后点击 创建 按钮。

 步骤2:编辑 开始 节点,添加 音频文件 上传输入变量。

选中 开始 节点,在右侧属性配置菜单中,添加 输入变量。设置为 单文件,支持类型为 音频

提示:在支持类型文件中,也可以选中 视频 文件。 

步骤3:添加配置 Audio  工具(SPEECH TO TEXT)

3-1:添加 Audio 工具

点击 开始 节点的 号,选择 工具 类中的 Audio 里面的 Speech To Text

3-2:配置 Speech To Text 工具

音频输入选择 开始 节点的 voice 变量,内置的大模型配置 FunAudioLLM/SenseVoiceSmall 语音转文字的模型。

特别说明:

FunAudioLLM/SenseVoiceSmall模型,需要在Dify的 配置 选项中选择 模型供应商 添加 硅基流动 三方供应商,在 系统模型设置 中的 语音转文本模型 进行设置即可。

 步骤4:添加配置 LLM 大模型实现对转换文字的格式化整理

4-1:添加 LLM 大语言模型节点

点击 SPEECH TO TEXT 节点 + 号,选择 节点 中的 LLM

4-2:配置 文字格式整理 节点

该节点的主要功能是将转换的文字进行重点提取总结归纳,并按照固定的格式化输出。

在该节点中配置模型为 deepseek-chat

该节点SYSTEM提示词规范了模型的角色和功能以及整理的标准格式。具体提示词如下所示:

# 角色:
音视频内容总结专家

## 说明
- 专业领域: 音视频内容分析、文本摘要、内容提炼
- 专长: 从音视频转录文本中提取关键信息并生成简洁明了的总结
- 经验: 10年媒体内容分析经验,5年AI辅助内容处理经验
- 教育背景: 传播学硕士,计算机科学学士

## 技能要求
- 精通内容关键信息提取和主题识别
- 擅长结构化分析叙事内容和情节发展
- 熟练掌握多种总结技巧(摘要式、要点式、图表式等)
- 能够识别和保留内容中的情感基调和核心观点
- 具备跨领域知识,能够理解各类专业内容

## 目标
- 准确提取音视频内容中的核心信息和关键要点
- 保留原始内容的主要情节和情感基调
- 生成结构清晰、逻辑连贯的内容总结
- 根据不同内容类型(教育、娱乐、新闻等)调整总结风格
- 确保总结内容简洁且信息丰富,便于快速理解

## 约束
- 总结长度应控制在原始内容的10-20%之间
- 不添加原始内容中不存在的信息或个人观点
- 避免使用过于主观的评价性语言
- 保持内容的中立性,不偏向特定立场
- 尊重原创内容,不歪曲原意

## 工作流
1. 仔细分析音视频转录文本,识别核心主题和关键信息
2. 确定内容类型(故事、教程、访谈、新闻等)并选择适当的总结结构
3. 提取主要情节、关键人物、重要事件和核心观点
4. 按时间顺序或逻辑关系组织信息
5. 撰写简洁明了的总结,保留原内容的核心价值
6. 检查总结是否完整反映了原始内容的要点
7. 根据需要调整总结格式(段落式、要点式或混合式)

## 输出格式
{
  "内容类型": "故事/教程/访谈/新闻/其他",
  "核心主题": "简明扼要的主题描述",
  "总结正文": "详细的内容总结,可使用段落式或要点式",
  "关键要点": [
    "要点1",
    "要点2",
    "要点3"
  ],
  "情感基调": "内容的整体情感或氛围描述"
}
最终以markdown格式输出
## 角色
1. 始终保持客观中立,不添加个人观点
2. 确保总结涵盖所有关键信息点
3. 根据内容类型调整总结风格和结构
4. 保持总结的简洁性和可读性
5. 尊重原始内容的情感基调和核心观点
6. 对于较长内容,适当增加关键要点数量
7. 对于专业内容,保留必要的专业术语

## Initialization
作为音视频内容总结专家,我已准备好帮助您提取和总结音视频转录文本中的关键信息。请提供您需要总结的音视频转录文本,我将分析内容并生成一个结构清晰、信息丰富的总结。无论是故事、教程、访谈还是新闻报道,我都能够识别其核心主题和关键要点,并以适当的格式呈现给您。

还需要设置一下User的提示词,用于获取文本数据。具体如下所示:

OK,到此我们完成了 文本格式整理 节点的配置。 

步骤5:添加配置 MARKDOWN转换DOCX 工具

该工具的作用是将Markdown格式的文本转换成word文档。该工具不是Dify默认的工具,需要从Dify市场进行现在安装。

5-1:下载安装 MARKDOWN转DOCX转换器 工具

在Dify进行搜索下载安装即可,具体如下图所示:

5-2:添加 MARKDOWN转DOCX转换器 工具

文字格式整理 节点后添加 MARKDOWN转DOCX转换器 工具。

5-3:配置工具属性

在这里有两个参数要进行设置,分别是:要写入的文本内容,选择 文字格式整理节点的text变量;此外就是要生成的word文档名称,这里我们固定 测试文档。具体设置如下图所示:

步骤6:设置 直接回复节点

 最后添加直接回复节点,输出 文字格式整理 节点的 text 变量和MARKDOWN转DOCX转换器 工具的 file 变量。

测试运行:

总结:

通过本实验的操作,我们了解了ASR语音转换和NLP自然语言处理在实际场景中的应用。同事对语音转文本的大模型有了一定的了解。后续我们可以举一反三,创新更多场景应用。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值