【限时免费】项目实战：用gte-small构建一个智能会议纪要生成器，只需100行代码！...-优快云博客

项目实战：用gte-small构建一个智能会议纪要生成器，只需100行代码！

【免费下载链接】gte-small 项目地址: https://gitcode.com/mirrors/supabase/gte-small

项目构想：我们要做什么？

在现代工作场景中，会议是沟通和决策的重要环节，但会议纪要的整理往往耗时耗力。本项目旨在利用gte-small模型构建一个智能会议纪要生成器，能够自动从会议录音或文字记录中提取关键信息，生成结构化的会议纪要。

功能描述

输入：一段会议录音（需转换为文字）或直接输入会议文字记录。
输出：结构化的会议纪要，包括会议主题、讨论要点、决策事项和待办任务。

核心能力

语义理解：通过gte-small模型提取文本的语义信息，识别关键讨论点。
信息聚类：将相似的讨论点归类，形成结构化的纪要内容。
任务提取：自动识别会议中的待办任务和决策事项。

技术选型：为什么是gte-small？

gte-small是一个轻量级的通用文本嵌入模型，具有以下核心亮点，非常适合本项目：

高效性：模型体积小（仅0.07GB），适合快速部署和实时处理。
多任务支持：支持信息检索、语义相似度计算等任务，能够准确提取文本的关键信息。
高性能：在MTEB基准测试中表现优异，尤其在语义相似度和聚类任务上得分较高。
跨平台支持：支持Python和JavaScript，方便在不同环境中部署。

适用场景

需要快速处理大量文本的场景。
对实时性要求较高的应用。
轻量级嵌入模型的需求。

核心实现逻辑

1. 文本嵌入

使用gte-small模型将会议文本转换为高维向量，捕捉语义信息。

2. 关键信息提取

通过计算文本片段的相似度，识别重复或相关的讨论点。

3. 结构化生成

将提取的关键信息分类为“讨论要点”、“决策事项”和“待办任务”，生成结构化纪要。

4. Prompt设计

设计一个简单的Prompt，引导模型关注会议中的关键内容：

“请从以下会议记录中提取讨论要点、决策事项和待办任务。”

代码全览与讲解

以下是基于Python的实现代码，核心部分基于gte-small的快速上手代码扩展而来：

import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel

def average_pool(last_hidden_states: Tensor, attention_mask: Tensor) -> Tensor:
    last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]

def generate_meeting_summary(text: str):
    # 初始化模型和分词器
    tokenizer = AutoTokenizer.from_pretrained("Supabase/gte-small")
    model = AutoModel.from_pretrained("Supabase/gte-small")

    # 分词
    batch_dict = tokenizer([text], max_length=512, padding=True, truncation=True, return_tensors='pt')

    # 获取嵌入向量
    outputs = model(**batch_dict)
    embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
    embeddings = F.normalize(embeddings, p=2, dim=1)

    # 模拟关键信息提取（实际项目中可替换为更复杂的逻辑）
    summary = {
        "主题": "会议主题提取",
        "讨论要点": ["讨论点1", "讨论点2"],
        "决策事项": ["决策1", "决策2"],
        "待办任务": ["任务1", "任务2"]
    }
    return summary

# 示例输入
meeting_text = "今天我们讨论了项目进度，决定下周发布测试版本。需要完成的任务包括测试用例编写和部署环境准备。"
summary = generate_meeting_summary(meeting_text)
print(summary)

代码讲解

模型加载：使用AutoTokenizer和AutoModel加载gte-small模型。
文本处理：将输入文本分词并转换为模型可处理的格式。
嵌入生成：通过模型生成文本的嵌入向量。
信息提取：模拟从嵌入向量中提取关键信息（实际项目中可结合聚类算法）。
结果输出：返回结构化的会议纪要。

效果展示与功能扩展

效果展示

输入一段会议记录：

"今天我们讨论了项目进度，决定下周发布测试版本。需要完成的任务包括测试用例编写和部署环境准备。"

输出结果：

{
    "主题": "会议主题提取",
    "讨论要点": ["讨论点1", "讨论点2"],
    "决策事项": ["决策1", "决策2"],
    "待办任务": ["任务1", "任务2"]
}

功能扩展

多语言支持：结合语音识别API，支持直接从录音生成纪要。
动态聚类：使用更复杂的算法动态聚类讨论点。
个性化模板：允许用户自定义纪要模板。