个人周报 - 山大公历第3-4周

汇报人:王竟择
日期:2025-03-09

本周工作总结:
本周我深度参与了“OmniMeetProTrack 全维会议链智能追录系统”的前期技术筹备,与韩林琦共同完成了项目主题和技术栈的确定,选定了VUE和SpringBoot作为前后端分离开发框架,并梳理了核心技术模块:自动语音识别(ASR,腾讯/讯飞API)、视觉识别(CLIP,OpenAI模型)、多模态数据融合、RAG增量学习和多Agent协作机制。我负责搭建了初步的系统架构设计文档,设计了多模态数据处理流程,提出将语音、文本和图像数据分层存储(使用MySQL存储文本元数据,MinIO存储语音和图像文件),并通过API接口实现数据融合调用,完成了架构图的初稿(包含数据采集、处理和存储三个模块)。

此外为了计算模型的工作量我设计了工作量计算公式,将复杂任务给到高能力模型处理,这样大大增加系统的稳定性和降低成本。

我还编写了功能需求文档,详细定义了会议管理模块(创建、编辑、通知)、实时内容追踪模块(语音转文本、图像识别)和智能分析模块(基于RAG的知识检索),共约3000字,涵盖15个功能点。此外,我调研了数据来源,分析了AliMeeting语料库(118.75小时会议数据,包含远场和近场语音)和CMMI项目文档(516.4MB,含软件开发模板),并提取了10个会议样本进行格式验证,确认其适配性。我还完成了DeepSeek API的初步接入测试,编写了100行Python代码实现接口调用,成功解析了1分钟测试音频,验证了语音转文本功能的可行性。

腾讯ASR模型调用可行性测试:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值