100行代码打造企业级会议纪要生成器：基于Llama 2-13B的智能转录方案-优快云博客

100行代码打造企业级会议纪要生成器：基于Llama 2-13B的智能转录方案

你是否正面临这些会议记录痛点？

团队会议后24小时内无法产出纪要？转录内容冗长且重点模糊？行动项跟踪困难导致决策石沉大海？本文将带你用100行代码构建一个基于Llama 2-13B-Chat的智能会议纪要生成器，彻底解决这些问题。

读完本文你将获得：

可直接部署的会议纪要生成系统完整代码
Llama 2提示词工程最佳实践（附7个优化维度）
模型性能调优指南（GPU/CPU环境适配）
企业级应用扩展方案（批量处理/API封装）
避坑指南：解决长文本截断/格式错乱等5类常见问题

技术选型对比：为什么选择Llama 2-13B-Chat？

模型	部署难度	上下文长度	价格	企业级特性	中文支持
Llama 2-13B-Chat	中等	4096 tokens	免费	商业许可	需优化
GPT-4	低	8192 tokens	高	API调用	优秀
通义千问	低	4096 tokens	中	API调用	优秀
百川-7B	低	4096 tokens	免费	开源	优秀

Llama 2-13B-Chat在免费商用、本地部署和性能平衡三个维度表现突出，特别适合对数据隐私有严格要求的企业场景。

环境准备与依赖安装

硬件要求检查

mermaid

快速部署命令

# 克隆仓库
git clone https://gitcode.com/mirrors/meta-llama/Llama-2-13b-chat
cd Llama-2-13b-chat

# 创建虚拟环境
conda create -n llama-minutes python=3.10 -y
conda activate llama-minutes

# 安装依赖
pip install torch transformers accelerate sentencepiece python-dotenv

核心代码实现（100行版本）

1. 模型加载与配置

import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from dotenv import load_dotenv

# 加载环境变量
load_dotenv()

# 模型配置 - 关键参数
MODEL_PATH = "."  # 当前目录
TOKENIZER_PATH = "."
MAX_INPUT_LENGTH = 4096  # Llama 2支持的最大上下文长度
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH)
tokenizer.pad_token = tokenizer.eos_token  # 修复Llama 2无pad_token的问题

# 加载模型（自动选择精度和设备）
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.float16 if DEVICE == "cuda" else torch.float32,
    device_map="auto"  # 自动分配设备
)

2. 文本生成管道配置

# 创建文本生成管道
generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto",
    max_new_tokens=1024,  # 输出长度控制
    temperature=0.7,      # 随机性控制（0-1）
    top_p=0.9,            #  nucleus采样参数
    repetition_penalty=1.1 # 避免重复生成
)

3. 提示词工程：打造专业会议分析师

# 系统提示词 - 专业会议纪要生成器角色定义
SYSTEM_PROMPT = """
You are a professional meeting minutes generator. Your task is to:
1. Analyze meeting transcripts and extract key information
2. Identify main discussion points, decisions made, and action items
3. Organize content in clear sections with appropriate headings
4. Keep technical discussions accurate but concise
5. Highlight deadlines and responsible persons for action items
"""

def generate_prompt(transcript):
    """构建符合Llama-2-Chat格式的提示词"""
    return f"[INST] <<SYS>>{SYSTEM_PROMPT}<</SYS>>\n\nPlease generate meeting minutes from the following transcript:\n{transcript} [/INST]"

4. 主函数与流程控制

def generate_minutes(transcript):
    """生成会议纪要的主函数"""
    if not transcript or len(transcript.strip()) == 0:
        raise ValueError("Transcript cannot be empty")

    # 构建提示词
    prompt = generate_prompt(transcript)

    # 确保输入不超过模型最大上下文长度
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=MAX_INPUT_LENGTH)
    input_length = inputs.input_ids.shape[1]
    if input_length >= MAX_INPUT_LENGTH:
        print(f"Warning: Transcript truncated to {MAX_INPUT_LENGTH} tokens")

    # 生成会议纪要
    print("Generating meeting minutes...")
    outputs = generator(prompt)
    minutes = outputs[0]["generated_text"].split("[/INST]")[-1].strip()

    return minutes

def save_minutes(minutes, output_path="meeting_minutes.md"):
    """保存会议纪要到文件"""
    with open(output_path, "w", encoding="utf-8") as f:
        f.write(minutes)
    print(f"Meeting minutes saved to {output_path}")

5. 示例使用与测试

if __name__ == "__main__":
    # 示例会议记录
    sample_transcript = """
    Alice: Good morning everyone, let's start the meeting. The main topic today is the Q3 project timeline.
    Bob: Thanks Alice. According to our current progress, we're 2 weeks behind schedule.
    Charlie: The main issue is the API integration with the payment system.
    Alice: Can we resolve this by the end of next week?
    Charlie: Yes, my team can work overtime to fix this.
    Bob: I'll adjust the timeline accordingly and send an update to stakeholders by Friday.
    Alice: Great. Let's schedule a follow-up meeting for next Monday to review progress.
    """

    # 生成会议纪要
    try:
        minutes = generate_minutes(sample_transcript)
        print("\n--- Generated Meeting Minutes ---\n")
        print(minutes)
        save_minutes(minutes)
    except Exception as e:
        print(f"Error generating meeting minutes: {str(e)}")

提示词工程进阶：7个维度优化输出质量

1. 角色定义增强

# 优化版：增加专业背景描述
SYSTEM_PROMPT = """
You are a senior project manager with 10+ years of experience in software development projects. 
You specialize in generating clear, actionable meeting minutes for technical teams.
Your minutes consistently receive praise for their clarity and ability to drive action.
"""

2. 输出格式控制

# 强制Markdown格式输出
SYSTEM_PROMPT += """
Output FORMAT REQUIREMENTS:
- Use Markdown formatting with exactly these sections:
  1. **Meeting Overview** (date, attendees, duration)
  2. **Key Discussion Points** (numbered list)
  3. **Decisions Made** (bolded)
  4. **Action Items** (table with Task, Owner, Deadline)
  5. **Open Issues** (italicized)
- Use ### for section headings
- Maximum 3 levels of nesting
"""

3. 领域知识注入

# 增加行业特定术语表
SYSTEM_PROMPT += """
TECHNICAL CONTEXT:
- Project uses: Python, FastAPI, PostgreSQL, Kubernetes
- Team structure: Frontend (3), Backend (5), DevOps (2), PM (1)
- Key metrics: API response time (<200ms), uptime (99.9%)
"""

性能优化指南：GPU/CPU环境适配

GPU环境（推荐）

# 10GB+ VRAM优化配置
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.float16,  # 半精度浮点
    device_map="auto",
    load_in_4bit=True,          # 4位量化（需安装bitsandbytes）
    bnb_4bit_compute_dtype=torch.float16
)

CPU环境（最低配置）

# 8核32GB内存优化配置
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.float32,
    device_map="cpu",
    low_cpu_mem_usage=True
)

# 生成参数调整（降低CPU负载）
generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,       # 减少输出长度
    temperature=0.5,          # 降低随机性
    do_sample=False,          # 使用贪婪解码
    batch_size=1              # 禁用批处理
)

企业级扩展方案

1. API服务封装（FastAPI）

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel

app = FastAPI(title="Llama Meeting Minutes API")

class TranscriptRequest(BaseModel):
    transcript: str
    output_format: str = "markdown"
    max_length: int = 1024

@app.post("/generate-minutes")
async def api_generate_minutes(request: TranscriptRequest):
    try:
        minutes = generate_minutes(request.transcript)
        return {"minutes": minutes, "format": request.output_format}
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

# 启动命令: uvicorn main:app --host 0.0.0.0 --port 8000

2. 批量处理功能

import os
from tqdm import tqdm

def batch_process_transcripts(input_dir, output_dir):
    """批量处理目录中的所有转录文本"""
    os.makedirs(output_dir, exist_ok=True)
    
    for filename in tqdm(os.listdir(input_dir)):
        if filename.endswith(".txt"):
            with open(os.path.join(input_dir, filename), "r", encoding="utf-8") as f:
                transcript = f.read()
            
            minutes = generate_minutes(transcript)
            output_path = os.path.join(output_dir, f"{os.path.splitext(filename)[0]}_minutes.md")
            save_minutes(minutes, output_path)

常见问题与解决方案

1. 输入文本过长

def chunk_transcript(transcript, chunk_size=3000):
    """将长文本分割为模型可处理的块"""
    words = transcript.split()
    chunks = []
    
    for i in range(0, len(words), chunk_size):
        chunk = ' '.join(words[i:i+chunk_size])
        # 添加上下文提示
        if i > 0:
            chunk = f"(Continued from previous section) {chunk}"
        chunks.append(chunk)
    
    return chunks

# 分块处理与结果合并
def process_long_transcript(transcript):
    chunks = chunk_transcript(transcript)
    minutes_chunks = []
    
    for i, chunk in enumerate(chunks):
        prompt = generate_prompt(chunk)
        # 添加块位置信息
        prompt += f"\n\nThis is chunk {i+1}/{len(chunks)} of the transcript. Focus only on content in this chunk."
        
        outputs = generator(prompt)
        minutes_chunks.append(outputs[0]["generated_text"].split("[/INST]")[-1].strip())
    
    # 合并结果
    return merge_minutes_chunks(minutes_chunks)

完整部署清单

mermaid

避坑指南：5类常见问题解决方案

1. 模型加载失败

症状：OSError: Can't load model
解决方案：

检查模型文件完整性（对比checksum.chk）
确认transformers版本≥4.31.0
执行huggingface-cli login获取访问权限

2. 输出格式错乱

症状：Markdown格式不完整或嵌套错误
解决方案：

在提示词中增加格式示例
使用output_format参数强制格式
添加后处理函数修复常见格式错误

总结与展望

本文展示了如何用100行代码构建基于Llama 2-13B-Chat的会议纪要生成器，涵盖从核心实现到企业级部署的完整流程。关键收获包括：

提示词工程是提升输出质量的核心（角色定义+格式控制+领域知识）
量化技术使模型能在消费级GPU上运行（4位量化可节省60%显存）
分块策略有效解决长文本处理难题（配合上下文提示维持连贯性）

未来优化方向：

多轮对话模式：支持对生成结果进行交互式修改
多模态输入：增加音频直接转录功能
知识库集成：自动关联项目文档和历史会议记录

行动项：

点赞收藏本文以备部署时参考
立即克隆仓库开始测试（30分钟内可完成首次运行）
关注作者获取后续优化教程（下周发布：前端界面设计）

祝你的团队从此告别繁琐的会议记录工作！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考