一、工作目标与背景
以往会议系统只能基于纯文本(如转录或聊天)实现问答检索,难以让用户利用“屏幕截图”“摄像头拍照”等非文本信息进行内容追问。本周目标是:实现会议图片自动采集(摄像头/屏幕)、OSS 存储、AI 识别与语义化输出,打通“图片→AI解读→内容流转”闭环,支持会议内所有成员对任意可见画面的细粒度内容问答,进一步提升会议协同的智能化水平。
二、主要完成任务
-
多模态大模型适配与对比
-
先后集成了 DeepSeek-AI 的 deepseek-vl2 与阿里云千文 qwen-vl-plus 两种多模态 API。




-
结合实际测试,配合阿里云 OSS 存储方案(公网直链),qwen-vl-plus 识别速度与稳定性更优,作为系统主选方案。

-
-
会议图片一键采集与上传
-
前端集成摄像头、屏幕共享的截图功能,一键拍照,图片立即上传到 OSS。


-
按会议级目录分组存储,自动生成唯一文件名,确保会议隔离、避免文件名冲突。


-
-
AI 自动识别与内容分发
-
上传成功后立即调用多模态识别接口,返回识别文本与结构化分析结果。
-
识别结果自动推送到会议页面,并可一键复制、粘贴到会议 AI 助手,实现图片信息的二次智能问答。

-
-
会议全维信息流打通
-
识别结果可直接参与会议内的上下文对话,与原有文本转录/摘要信息合并,支持跨媒体实时知识检索与回顾。
-
所有图片分析结果均归档至 OSS,方便后续知识复用和深度挖掘。
-
三、成果展示
屏幕共享:

摄像头:

四、遇到的问题与解决办法
-
图片上传后识别API无法下载内容
原因是 OSS 文件夹权限或 URL 拼接错误,模型端返回 "Failed to download multimodal content"。通过调整 OSS bucket 为“公有读”,并规范 URL 拼接及后缀,确保模型端可直接公网访问图片。 -
部分环境 HTTPS 访问 OSS 域名失败
发现开发环境 Python SSL 证书链未配置或网络阻断,导致 MaxRetryError。通过升级 Python 依赖、配置系统 CA 证书,以及 curl 命令行测试排查网络,最终确保所有上传图片链接均可跨公网直接访问。 -
识别结果的多终端展示与粘贴体验问题
初版分析结果仅在浮窗区展示,用户反馈不便于引用。现已支持识别结果“一键复制”,并可自动粘贴到 AI 助手问答区,提高多模态交互体验。
五、下周计划
准备系统说明书、代码文档,周一答辩

被折叠的 条评论
为什么被折叠?



