该文章由字节跳动团队主导,提出了基于多模态大语言模型(MLLMs)和消费级相机的肩部疾病辅助诊断方案,核心是Hybrid Motion Video Diagnosis(HMVDx)框架,旨在解决医疗资源匮乏地区肩部疾病早期诊断难题,同时创新评估体系以验证方案有效性。
一、文章主要内容
- 研究背景与问题
- 肩部疾病(如冻结肩)在老年人和重复性肩部作业人群中发病率高,全球普通人群上肢肌肉骨骼疼痛患病率达52%,肩部疼痛占比大,且基层医疗资源匮乏地区难以实现早期准确诊断。
- 传统诊断依赖医院专业设备(如MRI、CT)和医生经验,成本高、 accessibility差;现有AI辅助诊断方案或依赖专业医疗设备,或未结合动态运动分析,难以在资源有限场景推广。
- 核心方法
- 数据处理:采集含肩部疾病患者和健康人群的运动视频,经隐私保护(面部模糊、去除身份/病史信息)、音频消除、视频裁剪压缩后用于模型训练,最终数据集含761个视频样本(504个患病样本、257个健康样本)。
- 诊断框架:提出HMVDx框架,将“动作理解”与“疾病诊断”拆分:用Gemini-1.5-Pro将视频转化为动作描述文本,再用DeepSeek-R1基于文本和预设诊断规则判断疾病;同时设计Motion Trajectories Prompt Framework,用相对位置描述(如“高于头顶”)替代数值量化,提升模型动作理解准确性。

订阅专栏 解锁全文
1144

被折叠的 条评论
为什么被折叠?



