汇报人:王竟择
日期:2025-03-09
本周工作总结:
本周我深度参与了“OmniMeetProTrack 全维会议链智能追录系统”的前期技术筹备,与韩林琦共同完成了项目主题和技术栈的确定,选定了VUE和SpringBoot作为前后端分离开发框架,并梳理了核心技术模块:自动语音识别(ASR,腾讯/讯飞API)、视觉识别(CLIP,OpenAI模型)、多模态数据融合、RAG增量学习和多Agent协作机制。我负责搭建了初步的系统架构设计文档,设计了多模态数据处理流程,提出将语音、文本和图像数据分层存储(使用MySQL存储文本元数据,MinIO存储语音和图像文件),并通过API接口实现数据融合调用,完成了架构图的初稿(包含数据采集、处理和存储三个模块)。

此外为了计算模型的工作量我设计了工作量计算公式,将复杂任务给到高能力模型处理,这样大大增加系统的稳定性和降低成本。

我还编写了功能需求文档,详细定义了会议管理模块(创建、编辑、通知)、实时内容追踪模块(语音转文本、图像识别)和智能分析模块(基于RAG的知识检索),共约3000字,涵盖15个功能点。此外,我调研了数据来源,分析了AliMeeting语料库(118.75小时会议数据,包含远场和近场语音)和CMMI项目文档(516.4MB,含软件开发模板),并提取了10个会议样本进行格式验证,确认其适配性。我还完成了DeepSeek API的初步接入测试,编写了100行Python代码实现接口调用,成功解析了1分钟测试音频,验证了语音转文本功能的可行性。

腾讯ASR模型调用可行性测试:

687

被折叠的 条评论
为什么被折叠?



