【限时免费】项目实战：用Qwen2.5-VL-72B-Instruct构建一个智能会议纪要生成器，只需100行代码！-优快云博客

项目实战：用Qwen2.5-VL-72B-Instruct构建一个智能会议纪要生成器，只需100行代码！

【免费下载链接】Qwen2.5-VL-72B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen2.5-VL-72B-Instruct

项目构想：我们要做什么？

在现代职场中，会议是信息传递和决策制定的重要环节，但会议纪要的整理往往耗时耗力。本项目旨在利用Qwen2.5-VL-72B-Instruct模型的多模态能力，开发一个智能会议纪要生成器。该工具能够自动分析会议中的语音或视频内容，并生成结构化的会议纪要，包括会议主题、关键讨论点、决策事项和待办任务等。

输入与输出

输入：会议的语音录音（音频文件）或视频录像（视频文件）。
输出：结构化的会议纪要文本，包含以下内容：
- 会议主题
- 关键讨论点
- 决策事项
- 待办任务（包括负责人和截止时间）

技术选型：为什么是Qwen2.5-VL-72B-Instruct？

Qwen2.5-VL-72B-Instruct是一个强大的多模态模型，特别适合本项目需求，原因如下：

多模态理解能力：模型能够同时处理音频、视频和文本信息，非常适合分析会议内容。
结构化输出：模型支持生成JSON等结构化数据，便于提取会议纪要的关键信息。
长视频理解能力：模型可以处理超过1小时的视频内容，适合长时间会议的记录。
动态工具调用：模型可以作为视觉代理，动态调用工具（如语音转文字工具），提升处理效率。

核心实现逻辑

本项目的核心逻辑分为以下几步：

语音转文字：使用外部工具（如Whisper）将会议录音转换为文本。
视频帧提取：如果是视频输入，提取关键帧并转换为模型可处理的格式。
模型调用：将文本和视频帧输入Qwen2.5-VL-72B-Instruct模型，生成会议纪要。
结果结构化：解析模型的输出，提取关键信息并生成最终的会议纪要。

关键Prompt设计

为了让模型更好地完成任务，我们需要设计一个清晰的Prompt：

你是一个专业的会议纪要生成助手。请根据以下会议内容，生成一份结构化的会议纪要：
1. 会议主题
2. 关键讨论点（列出3-5个）
3. 决策事项
4. 待办任务（包括负责人和截止时间）

会议内容：{输入内容}

代码全览与讲解

以下是完整的项目代码，基于Qwen2.5-VL-72B-Instruct的快速上手代码扩展而来：

import torch
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import whisper  # 用于语音转文字

# 初始化语音转文字模型
whisper_model = whisper.load_model("base")

# 初始化Qwen2.5-VL模型
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-VL-72B-Instruct", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-72B-Instruct")

def transcribe_audio(audio_path):
    """将会议录音转换为文本"""
    result = whisper_model.transcribe(audio_path)
    return result["text"]

def generate_meeting_minutes(text_content):
    """生成会议纪要"""
    prompt = f"""
    你是一个专业的会议纪要生成助手。请根据以下会议内容，生成一份结构化的会议纪要：
    1. 会议主题
    2. 关键讨论点（列出3-5个）
    3. 决策事项
    4. 待办任务（包括负责人和截止时间）

    会议内容：{text_content}
    """
    inputs = processor(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=500)
    return processor.decode(outputs[0], skip_special_tokens=True)

def main():
    # 输入会议录音或视频路径
    input_path = "meeting_audio.mp3"  # 替换为实际路径
    text_content = transcribe_audio(input_path)
    minutes = generate_meeting_minutes(text_content)
    print("生成的会议纪要：")
    print(minutes)

if __name__ == "__main__":
    main()

代码讲解

语音转文字：使用Whisper模型将音频文件转换为文本。
模型调用：将文本内容输入Qwen2.5-VL-72B-Instruct模型，生成会议纪要。
结果解析：直接输出模型生成的会议纪要文本。

效果展示与功能扩展

效果展示

假设会议录音中包含以下内容：

“今天我们讨论了项目A的进度，目前完成了80%。接下来需要小李在周五前完成测试，老王在下周一前提交报告。”

生成的会议纪要可能如下：

1. 会议主题：项目A进度讨论
2. 关键讨论点：
   - 项目A已完成80%
   - 测试任务由小李负责
   - 报告任务由老王负责
3. 决策事项：无
4. 待办任务：
   - 小李：完成测试（截止时间：周五）
   - 老王：提交报告（截止时间：下周一）

功能扩展

多语言支持：扩展模型支持多语言会议纪要生成。
实时处理：结合实时语音转文字工具，实现会议纪要的实时生成。
自动提醒：集成邮件或消息通知功能，自动发送待办任务提醒。