- 博客(17)
- 收藏
- 关注
原创 个人周报--山大公历第17周
本周实现了会议系统多模态视觉交互功能升级,通过集成阿里云qwen-vl-plus多模态API,完成图片自动采集(摄像头/屏幕截图)、OSS存储、AI识别与语义化输出全流程开发。主要成果包括:实现一键拍照上传、AI自动识别推送到会议页面、跨媒体信息合并对话。解决OSS权限、HTTPS访问等技术问题,优化识别结果展示与引用体验。系统现已支持会议画面智能问答,提升协同效率。下周将完善文档准备答辩。
2025-06-11 20:58:44
354
原创 个人周报-山大公历第16周
完成“转录-摘要-注入-细粒度问答”全链路,实现了可随时引用整场发言的实时 AI 问答,为多会议跨维度知识挖掘奠定数据基础。
2025-06-08 17:59:47
384
原创 个人周报--山大公历第14周
本周工作聚焦于提升线上会议的安全性和实名制需求,通过前端人脸识别和地理位置采集技术,实现了自动会议签到功能,并将签到数据可视化展示在管理页面。主要任务包括开发前端自动签到与定位代码、完善后端接口与数据存储、以及实现前端签到展示页面。在开发过程中,解决了百度地图WebGL SDK加载失败、数据入库失败与接口调试、异步流程与用户体验冲突等问题。通过这些改进,确保了签到数据的完整性和查询能力,同时优化了用户体验,为会议合规与考勤提供了强有力的支撑。
2025-05-19 19:41:14
924
原创 个人周报--山大公历第13周
本周以提升会议系统的安全性与用户体验为目标,开发并完善了基于人脸识别的注册和签到全流程功能。用户在注册和签到时,系统会自动、短暂开启摄像头采集人脸图像,完成后即刻关闭,保证仅本人通过验证后才能进入会议。采集到的面部特征仅用于系统内部比对,不会被其他成员看到,有效保护隐私。前后端协同实现了摄像头自动控制、活体检测、异常容错等机制,提升了系统的鲁棒性和用户信任度,为后续多场景智能身份核查奠定基础。
2025-05-19 17:40:43
516
原创 个人周报--山大公历第12周
本周完成了DeepSeek RAG增强:将所有知识库及chunk元数据集中存储于MongoDB,将768维向量存入Milvus,并在检索前动态加载集合,实现Top-3快速检索;前端新增知识库下拉选择并完善接口联调,优化参数传递与错误日志;统一使用mpnet-base-v2模型与Milvus集合,解决了维度不匹配和集合未加载问题,实现了端到端响应。
2025-05-19 16:54:44
885
原创 个人周报--山大公历第11周
本周工作聚焦于提升线上会议系统的用户体验,主要完成了实时语音转写功能的嵌入和“结束会议无响应”问题的修复。通过WebSpeechAPI实现语音识别,确保在用户说话时实时渲染字幕,并优化字幕显示效果,使其在不同背景上均保持可读性。同时,修复了“结束会议”功能失效的问题,确保会议结束后能顺利跳转并释放资源。这些改进显著提升了会议的可用性和易用性,为后续AI助手的开发奠定了基础。
2025-05-13 18:00:16
1003
原创 个人周报--山大公历第10周
本项目旨在开发一个集成了视频会议功能、AI智能助手对话功能以及会议信息管理功能的综合性应用系统。视频会议模块支持多人实时音视频通话,AI智能助手模块提供智能问答和语音交互功能,会议信息管理模块则负责会议日程、记录和文件的存储与管理。本周,主要聚焦于以下几个关键任务:解决前端图片加载问题、合并程序代码,以及推进视频会议功能模块、AI智能助手对话模块和会议信息管理模块的集成工作。本周,成功解决了前端图片加载问题,完成了三个核心模块的代码合并,并推进了模块集成工作。
2025-05-02 23:41:03
953
原创 个人周报-山大公历第5-7周
针对要求完善会议管理功能和新增实时AI问答,我协助修订了技术方案,新增会议创建、结束、日历提醒和实时问答模块,更新了功能需求文档,补充约2000字内容,详细定义了实时AI助手的检索逻辑(基于历史会议内容的向量搜索,Faiss索引)和数据可视化功能(会议场次、时长统计,ECharts实现)。在后端开发上,我学习了SpringBoot,搭建了后端项目框架,完成了会议管理模块的两个接口(会议创建、查询),编写约150行Java代码,使用MySQL存储会议元数据,支持分页查询功能。
2025-04-20 22:56:26
303
原创 个人周报 - 山大公历第3-4周
本周我深度参与了“OmniMeetProTrack 全维会议链智能追录系统”的前期技术筹备,与韩林琦共同完成了项目主题和技术栈的确定,选定了VUE和SpringBoot作为前后端分离开发框架,并梳理了核心技术模块:自动语音识别(ASR,腾讯/讯飞API)、视觉识别(CLIP,OpenAI模型)、多模态数据融合、RAG增量学习和多Agent协作机制。我还完成了DeepSeek API的初步接入测试,编写了100行Python代码实现接口调用,成功解析了1分钟测试音频,验证了语音转文本功能的可行性。
2025-04-20 22:53:31
333
原创 LLM视角下的矩阵乘法
在 LLM 的推理过程中经常设计到矩阵乘法操作,这里我将给出一个矩阵乘法计算的新视角。矩阵是由向量构成的,行向量,列向量,而两个矩阵相乘就是两个矩阵的向量两两做内积,所有的内积结果放在一个表里作为结果。
2025-04-04 20:36:56
297
原创 从零搭建GPT,从GPT搭建DeepSeek
深度解析gpt为首llm的架构原理,解析deepseek推理大模型在gpt架构以及训练方式上的改进
2025-03-28 14:19:53
1036
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人