项目周报--OMPT

💡 字多 ≠ 有价值

周报不只是为了表现工作量,而更是为了给团队提供最基本的“信息透明”。

山大公历:第三周

汇报人:王竟择

日期:2025-03-09

本周重点

1.任务进展

  • 确定项目主题:全维会议链智能追录系统 | OmniMeetProTrack
  • 明确技术要点:前后端分离开发(VUE&SpringBoot),ASR(自动语音识别),CLIP(视觉识别),多模态数据融合,RAG(增量学习&知识链条),MultiAgent Cooperation
  • 制定项目目标:构建一个智能化、多模态、可持续学习的会议追踪和分析系统,助力企业和团队提升会议效率,在具有基本的会议管理功能的基础上,实现全方位信息捕捉、高效知识管理、深度项目跟踪及智能决策支持。
  • 设计架构:

本周王竟择与韩林琦共同完成了明确主题,参考可用技术,架构设计,设计功能需求等任务。项目正式开始,预计周一即十号进行开题答辩,后续可以开始技术开发。

2.相关数据

暂无训练和测试数据

3.风险同步

存在哪些风险、对应的对策是什么。

学校提供的 API 效果卡顿,不能处理全学校的并发访问量,导致咱们无法调用来测试与开发。解决方法:调用官方的 DeepSeek 接口,后序改为学校接口。保底方案:氪金

下周计划

  1. 寻找合适的数据集:要求会议数据包含ppt、语音文件、文本文件。最好是同一个项目先后的三次会议,不同领域的项目会议。三个项目即可。数据规模 3×3
  2. 模型调用测试:deepseek,ASR(腾讯、讯飞、阿里),CLIP(OpenAI)。搭建测试框架,调用模型
  3. Prompt 设计和测试:依赖于学校提供模型接口,可暂用 DS 的官方接口,下周一开题结束后与相关负责老师沟通确认。
  4. 前后端开发:找到贴合业务场景和符合功能需求的前后端框架,跑通框架,持续添加功能。
  5. 持续学习:RAG,Agent,数据库

工作安排

王竟择:找数据,调模型,低版本 prompt 测试运行结果

韩林琦:找数据,找前后端框架,构建数据库

陆晓天:基于前面的框架和数据库开发后端功能,初步完成基本增删改查工作

孙颢宁:基于前面的框架尝试修改前端页面,设计页面

李欣艳:基于前面的框架尝试修改前端页面,设计页面

思考

这个项目比较具有创新性,创新点在多模态数据的融合、增量学习机制的 RAG 和多Agent 协作工作,同时还存在很多技术难点:

  1. 没有 RAG 数据库开发经验
  2. 软件系统级功能的 prompt 设计比较耗经历和时间
  3. 能够找到合适前后端框架,没有会前端开发的成员,UI 是产品的第一印象,总之非常重要。

Source

技术开发文档:OmniMeetProTrack 全维会议链智能追录系统——山东大学软件学院创新实训项目博客-优快云博客

代码仓库:OMPT-SDUers/OmniMeetProTrack

个人博客:

韩林琦:https://blog.youkuaiyun.com/jinrissq?type=blog

王竟择:https://blog.youkuaiyun.com/Lagrange0100?type=blog

陆晓天:https://blog.youkuaiyun.com/2301_79707986?spm=1010.2135.3001.5343

李欣艳:https://blog.youkuaiyun.com/weixin_74054935?spm=1011.2266.3001.5343

孙颢宁:https://blog.youkuaiyun.com/2301_79726540?type=collect

山大公历:第四周

汇报人:王竟择

日期:2025-03-16

本周重点

第四周周一的举行开题答辩,本项目没有通过,处于待定状态,几位老师给出了重要修改意见,更改出第二版项目计划。

1. 任务进展

重要修改点:

  • 开发正一个完整的会议系统,构建类似钉钉这样具备基本会议创建、结束、管理以及日历提醒等功能的集成系统,不仅限于停留在接入 deepseek 的会议内容分析系统。
  • 增加实时问答功能,上一版本是会议结束后将会议音频和 ppt 等会议内容上传分析。修改后会议中有 AI 的助手可以实时提问,AI 助手可检索本次会议从开始到现在和本次会议之前的所有会议内容,给出更有针对性和全局性的思考回答。
  • 增加会议外工作辅助问答助手,还可对会议场次、时长等数据进行统计和可视化。
  • 这一点延续前一版计划的安排:实现视频会议中实时记录语音内容,会议后对当前会议音频、文档、图片等内容数据的处理与分析,存储与管理。

2. 数据支持

AliMeeting语料库,包含120小时真实记录的中文会议数据,包括8通道麦克风阵列采集的远场数据以及每个参会者的耳机麦克风采集的近场数据。AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。

CMMI项目文档资料,包含公司软件开发过程中的各类项目的真实文档和模板,共计516.4MB。

3. 架构设计更新

删除会议视频处理功能,改为只处理白板和图片数据。

系统优化设计:(后期)

1. 采用多智能体协作机制(流水线),对总任务进行分解,根据实际运行速度与任务完成情况,评估子任务难度,根据难度等级调用所需推理能力的模型,降低使用者的调用成本,节省模型供应方的计算资源,避免模型供应方并发量导致的系统不稳定问题。

2. Agent(LLM)以及其他处理模型前设有缓冲区,这是因为系统往往需要同时接收多个请求,而直接将所有请求传递给 Agent 处理可能会造成资源竞争和响应延迟。通过buffer保证请求的有序性,平滑突发流量,避免系统瓶颈模块给其他模块带来空闲等待。

3. 对于流水线采用并发异步处理,尽可能使阶段任务完成的速度相同,处理系统瓶颈,避免拥塞,加快流水线整体工作效率。

下周计划

环境搭建与技术学习,确定好项目框架

韩林琦:用墨刀设计项目原型、学习项目前后端搭建

王竟择:用墨刀设计项目原型、学习项目前后端搭建

陆晓天:学习项目前后端搭建、实现会议的基本管理

孙颢宁:学习项目前后端搭建、学习实现视频和语音的技术

李欣艳:学习项目前后端搭建、学习实现视频和语音的技术

思考

这次项目的开题给了很重要的软件开发指导:不能由技术出发来设计业务场景,这是为了吃醋下饺子。面向场景,面向业务,面向对象来设计我们要开发的产品。这些设计好后才是考虑用什么技术来实现。

Source

数据:AliMeeting数据集

山大公历:第五周

汇报人:王竟择

日期:2025-03-23

本周重点

本周是这个项目第一阶段的第一周,本周的任务都是学习任务,学习会议基本的功能实现和前后端的实现,由于我们的组员都是大数据专业很多软件开发和 AI 的知识需要现学,所以设定了一周的学习时间。我和韩林琪同学设计的产品的原型图。

📎前端页面设计.pdf

墨刀

陆晓天,孙颢宁,李欣艳三位同学找到了很多技术支持的项目资源,学习了很多前后端的开发知识和会议功能开发技术,可以在他们的个人博客中进行查阅。

下周计划

实现基本的会议功能,会议管理,实现日历功能,一键通知参会人员功能,对会议信息进行统计的功能。

韩林琦:完成项目前后端的搭建,初步学习CLIP、ASR等技术

王竟择:完成项目前后端的搭建,初步学习CLIP、ASR等技术

陆晓天:实现会议的基本管理

孙颢宁:实现视频和语音的技术

李欣艳:实现视频和语音的技术

<think>我们正在讨论大肠杆菌中表达地衣芽孢杆菌蛋白酶基因的优化问题。用户已经提到了使用DE3载体、PET28a载体、T7启动子,并遇到了表达失败的情况。用户希望得到优化表达条件(如IPTG浓度、温度、诱导时间)、提高蛋白产量的方法以及酶活检测的建议。根据之前用户的问题,我们重点关注以下几个方面:1.表达失败的常见原因2.优化表达条件3.提高蛋白产量的策略4.蛋白酶活性的检测方法由于蛋白酶可能对宿主有毒性,并且容易降解,因此需要特别考虑。我们将从以下几个方面进行优化:1.诱导条件的优化:IPTG浓度、温度、诱导时间2.宿主的选择:考虑使用蛋白酶缺陷型宿主3.融合标签和载体优化4.蛋白可溶性表达优化5.蛋白酶活性的检测方法下面是具体建议:###1.诱导条件优化诱导条件的优化是提高外源蛋白表达的关键。针对蛋白酶可能存在的毒性问题,建议采用以下策略:-**IPTG浓度优化**:由于高浓度IPTG可能导致过度诱导,而高表达量可能引起包涵体形成或细胞毒性。因此,建议使用低浓度IPTG(0.1-0.5mM)进行诱导[^1]。可以采用梯度实验来确定最佳浓度,例如0.1、0.2、0.5、1.0mM。-**温度优化**:降低诱导温度(例如25-30℃)有助于减缓蛋白合成速度,促进正确折叠,减少包涵体形成[^2]。-**诱导时间优化**:在不同的时间点(例如诱导后2、4、6、8小时)取样,通过SDS-PAGE检测蛋白表达量。蛋白酶可能因长时间诱导而降解,因此需要找到最佳时间点。-**诱导起始点**:在菌体生长到对数中期(OD600≈0.6-0.8)时诱导,此时细胞代谢旺盛,有利于蛋白表达[^3]。###2.宿主选择大肠杆菌本身含有多种蛋白酶,可能降解外源蛋白。因此,推荐使用蛋白酶缺陷型菌株,如BL21(DE3)的衍生菌株:-**BL21Star™(DE3)**:具有更稳定的mRNA,增加蛋白表达。-**BL21trxB(DE3)**:有助于二硫键的形成。-**BL21(DE3)pLysS/pLysE**:具有低水平表达的T7溶菌酶,可抑制本底表达,适合表达有毒蛋白。-**专门用于蛋白酶表达的宿主**:如BL21(DE3)衍生出的缺乏多种胞质蛋白酶的菌株(lon和ompT蛋白酶缺陷),例如BL21(DE3)ΔlonΔompT。###3.载体和表达方式优化-**融合标签**:使用His标签(PET28a已有)可方便纯化。此外,考虑添加促进可溶性的标签(如Trx、SUMO、GST等)可能有助于提高可溶性和稳定性。但要注意,融合标签可能会影响酶活性,因此可能需要设计切割位点(如TEV蛋白酶位点)在纯化后去除。-**启动子强度**:T7启动子很强,但如果表达毒性蛋白,本底表达可能抑制细胞生长。可以选用带有T7lac启动子的载体(如PET系列已有),并确保使用含有lacI的宿主(如BL21(DE3))。另外,可以考虑使用阿拉伯糖启动子等更严格调控的启动子。-**使用自诱导培养基**:自诱导培养基可以避免手动添加诱导剂,且能够在高密度培养时自动诱导,适合大规模表达[^4]。###4.提高可溶性表达-**共表达分子伴侣**:共表达GroEL-GroES、DnaK-DnaJ-GrpE等分子伴侣,帮助蛋白正确折叠。-**添加可溶性表达增强剂**:在培养基中添加可提高蛋白可溶性的添加剂,如蔗糖(0.4M)、甘氨酸甜菜碱(1-2mM)、山梨醇(0.5M)等[^5]。-**使用蛋白酶抑制剂**:在细胞裂解时添加蛋白酶抑制剂混合物(如PMSF,EDTA等),防止降解。###5.酶活检测方法即使表达量低,也可能需要检测酶活。如果表达产物有活性,我们可以通过优化纯化过程来获得高纯度的酶。-**粗酶液制备**:收集诱导后的菌体,用合适的缓冲液重悬,超声破碎,离心取上清(可溶性部分)和沉淀(包涵体)。-**纯化**:使用Ni-NTA亲和层析纯化带His标签的蛋白。可分别检测上清液和沉淀复性后的酶活性。-**酶活检测方法**:-**底物降解实验**:根据地衣芽孢杆菌蛋白酶的底物特异性(通常水解酪蛋白、明胶等)设计。常用方法:将蛋白酶与底物(如酪蛋白)在适宜温度下反应,通过TCA沉淀法检测降解产物。释放的氨基酸或肽段可通过福林酚法(Folin-phenol)或BCA法测定。-**显色底物法**:使用人工合成的显色底物(如N-Succinyl-Ala-Ala-Pro-Phep-nitroanilide)测定水解活性,在410nm检测p-硝基苯胺的释放[^6]。-**酶活单位定义**:每分钟水解底物产生1μg酪氨酸所需的酶量为一个酶活力单位。-**反应条件优化**:酶反应的最适pH、温度、金属离子等需要确定,以便在最佳条件下测定。###实验方案设计1.**小规模优化实验**:-使用不同宿主菌(BL21(DE3),BL21(DE3)pLysS,BL21(DE3)ΔlonΔompT)在相同的IPTG浓度(0.1、0.5mM)、温度(37℃和25℃)下诱导,比较表达情况。-SDS-PAGE检测表达量及可溶性:分别取全细胞裂解物、上清(可溶性)和沉淀(包涵体)进行电泳。-Westernblot(可选):如果表达量低,用His-tag抗体检测目标条带。2.**规模放大**:一旦确定了优化的表达条件,进行1L发酵罐培养以提高细胞密度和蛋白产量。3.**酶活检测**:从优化后的表达菌株中纯化蛋白,并进行酶活检测。通过以上步骤,我们期望能够提高地衣芽孢杆菌蛋白酶在大肠杆菌中的表达量和活性。注意:由于蛋白酶的降解性质,每一步操作都要迅速且在低温下进行。§§相关问题§§1.什么是蛋白酶缺陷型大肠杆菌菌株?举例说明。2.如何利用融合标签提高蛋白可溶性表达?需要哪些步骤去除标签?3.地衣芽孢杆菌蛋白酶的特性是什么?如何确定其酶活性的最适条件?4.使用自诱导培养基进行表达优化有哪些注意事项?5.在纯化过程中如何防止蛋白酶降解?</think> ### 大肠杆菌中地衣芽孢杆菌蛋白酶基因表达优化的系统方案 #### 一、表达失败常见原因分析 1. **蛋白毒性**:蛋白酶可能降解宿主必需蛋白[^1] 2. **错误折叠**:形成包涵体或不溶性聚集物[^2] 3. **密码子偏好性**:芽孢杆菌密码子使用频率与大肠杆菌差异显著(特别是精氨酸AGG/AGA、异亮氨酸AUA等)[^3] 4. **诱导条件不当**:IPTG/Temp/OD参数未优化 #### 二、表达条件优化策略(PET28a-T7系统) $$\begin{array}{|c|c|c|c|} \hline \text{参数} & \text{推荐范围} & \text{优化目标} & \text{实验方案} \\ \hline \text{IPTG浓度} & 0.1-0.5\text{ mM} & \text{减轻代谢负担} & \text{梯度实验: } 0.05,0.1,0.5,1.0\text{ mM} \\ \text{诱导温度} & 16-25^\circ\text{C} & \text{促进可溶性表达} & \text{对比 } 37^\circ\text{C vs } 20^\circ\text{C} \\ \text{OD}_{600}\text{诱导点} & 0.6-0.8 & \text{平衡生长/表达} & \text{延迟诱导(OD=1.2)对比} \\ \text{诱导时长} & 4-16\text{小时} & \text{避免降解} & \text{时间梯度: 2,4,8,16h采样} \\ \hline \end{array}$$ **关键操作**: 1. 表达菌株更换为 **BL21(DE3) pLysS**(抑制本底表达) 2. 添加 **0.5 M山梨醇** 到培养基(稳定蛋白结构)[^4] 3. 裂解缓冲液中添加 **1 mM PMSF + 5 mM EDTA**(抑制降解) #### 三、产量提升工程策略 1. **密码子优化**: - 将密码子适应指数(CAI)优化至 >0.8(使用IDT Codon Optimization工具) - 特别关注 **5'端前15个密码子**的GC含量控制(40-60%) 2. **融合表达系统**: ```python # 改造载体结构示意 原始结构: T7 Promoter - [His]₆ - Thrombin site - Target Protease 优化方案: T7 Promoter - [His]₆ - SUMO tag - TEV site - Target Protease ``` (SUMO标签提高溶解度,TEV酶切位点实现精确切除) 3. **启动子调控**: - 测试T7lac调控系统(添加1 mM IPTG) - 备用方案:换用阿拉伯糖诱导的pBAD载体 #### 四、表达检测与酶活分析 **SDS-PAGE检测流程**: 1. 取样后立即置于冰上 2. 裂解液添加8 M尿素(溶解包涵体) 3. 考马斯亮蓝染色后凝胶成像定量 **酶活性测定法**: $$\text{酶活力单位} = \frac{\Delta A_{410}}{\varepsilon \times t} \times \frac{V_t}{V_s}$$ 其中: - $\varepsilon$ = 8.8 mM⁻¹cm⁻¹(对硝基苯胺摩尔消光系数) - 使用底物 **N-Succinyl-Ala-Ala-Pro-Phe p-nitroanilide**(典型枯草杆菌蛋白酶底物) - 反应条件:50 mM Tris-HCl(pH8.5),25°C,10 min反应[^5] #### 五、验证实验设计建议 1. **对照设置**: - 空载体对照(PET28a) - 阳性对照(已知可表达的蛋白酶基因) 2. **可溶性检测**: ```mermaid graph LR A[超声破碎] --> B[10,000g离心] --> C{上清中检测目标带} B --> D[沉淀尿素溶解] --> C ``` 3. **时间点采样**: - 诱导前(T₀) - 诱导后2/4/8/16 h(全程冰上操作)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值