突破传统局限:HPE-CogVLM融合视觉语言模型,革新头部姿态估计技术

突破传统局限:HPE-CogVLM融合视觉语言模型,革新头部姿态估计技术

【免费下载链接】cogvlm-chat-hf 【免费下载链接】cogvlm-chat-hf 项目地址: https://ai.gitcode.com/zai-org/cogvlm-chat-hf

近年来,头部姿态估计(HPE)技术在注意力追踪、人脸识别、用户行为分析、智能驾驶辅助以及人机交互等众多领域展现出巨大的应用潜力。这项技术的核心在于通过图像或视频数据精准预测头部的三维欧拉角,即偏航角、俯仰角和翻滚角。尽管6DRepNet、HopeNet和WHENet等非大型语言模型(Non-LLMs)在HPE领域取得了一定进展,但它们在复杂现实场景中的鲁棒性表现仍不尽如人意。近期,一项名为HPE-CogVLM的创新框架横空出世,它巧妙融合了视觉语言模型(VLM)CogVLM的强大视觉定位能力与LoRA层技术,成功解决了传统HPE方法依赖裁剪头部图像、泛化能力弱等痛点,在跨数据集评估中,将HPE预测的均方误差较现有Non-LLM的最先进方法降低了31.5%,为HPE技术的实用化开辟了新路径。

传统HPE技术瓶颈与VLM新机遇

传统的Non-LLMs在HPE任务中面临着数据集局限性带来的严峻挑战。这些模型通常在如300W-LP等范围狭窄的数据集上进行训练,并在AFLW2000、BIWI等类似受限的数据集上验证性能。这些数据集大多以头部特写图像为主,主要展示偏航角范围有限的前脸,而非覆盖全角度的头部姿态,且背景统一,输入数据的变异性极低。这种数据集的单一性直接导致模型在真实世界多样化环境中缺乏鲁棒性。虽然DirectMHP模型尝试在Agora、CMU等全范围HPE数据集上进行训练,以期实现一次性HPE预测的突破,但它在平衡头部边界框(BBox)检测与HPE任务性能方面困难重重,其在现实环境中的有效性仍有待商榷。

与之形成鲜明对比的是,大型语言模型(LLMs)及其分支视觉语言模型(VLMs)正凭借其强大的复杂任务处理能力改变着人工智能的应用格局。VLMs通过将视觉能力整合到LLMs中,能够完成诸如视觉问答、视觉定位等传统LLMs难以企及的复杂任务。其中,CogVLM作为一款先进的VLM,其卓越的视觉定位能力——包括字幕定位、参照表达式生成与理解以及基于定位的视觉问答等——展现出对多样化环境的强大适应性。这些功能均涉及以[[x1, y1, x2, y2]]格式BBox进行目标定位,这一核心能力为HPE任务的革新提供了关键基础。

HPE-CogVLM框架:多阶段创新架构解析

HPE-CogVLM框架通过精心设计的多阶段流程构建而成,旨在增强模型处理HPE相关复杂任务的能力,同时保留其原始的BBox预测功能。该框架的每个微调阶段均遵循CogVLM的微调脚本,并在注意力层的Query、键、值及密集层中实施LoRA技术,随后将各层的LoRA矩阵累积到原始模型的相应层中,确保了模型参数的高效更新与知识保留。

框架的第一阶段是在弱标签数据上对原始接地CogVLM进行预训练。研究团队选用CrowdHuman数据集,因其包含大量丰富的人像图片。由于该数据集本身不提供HPE的真实标注(GT),研究人员创新性地利用预训练的6DRepNet模型推理出弱HPE标注,形成弱标签图像。这一阶段的目标是让模型对各种人头朝向建立初步且广泛的理解,为后续精细调优奠定基础,输出模型被称为“弱标签CogVLM”。

紧接着,框架进入第二阶段:在特定任务(HPE)数据上对弱标签CogVLM进行有监督的微调。此阶段选用合成的Agora数据集,该数据集包含全范围头部偏航角的人像图片,并提供SMPL-X参数的GT数据,其头部姿态标注通过DirectMHP方法生成。尽管该数据集图像数量相对较少,但其标注精度远高于弱标签图像。微调的重点在于深度优化弱标签模型的HPE能力,最大化预测精确度,输出模型命名为“面向HPE的CogVLM”。

第三阶段是整个框架的核心创新点——原始接地CogVLM与面向HPE的CogVLM之间的基于层的合并。研究团队提出了一种基于余弦相似性准则的“赢者全得”层选择策略。余弦相似性用于衡量两层参数张量之间沿最后一维的平均共享信息量。通过设定较高的余弦相似性阈值(实验中设为0.95),确保所选层在内容上有显著重叠。若相似性低于阈值,则保留原始模型层以确保知识完整性;若超过阈值,则选择面向HPE的CogVLM层以强化新任务能力。同时,始终从原始模型中选择余弦相似性最小的1%的层,进一步保障基础能力。这种层合并方法有效避免了传统参数合并易导致的输出格式混乱问题,确保了模型参数的完整性与任务专业性。

最后,第四阶段对基于层的合并CogVLM在混合数据上进行持续微调。该阶段同时使用特定任务的HPE数据集和复习图像(来自Refcoco、Refcoco+和Refcocog等原始CogVLM用于BBox预测的训练数据集),并采用预先确定的最优复习比例。微调周期较短(不到一个训练周期),目的是在保持参数完整性的基础上,快速提升合并模型的预测准确性,最终输出HPE-CogVLM模型。第五阶段则使用现实世界的CMU全景图像评估HPE性能,并通过复习测试数据集评估BBox预测任务,全面验证模型的鲁棒性。

实验设计与卓越性能验证

为充分验证HPE-CogVLM框架的有效性,研究团队进行了严谨的实验设计与多维度的性能评估。在HPE任务提示设计上,创新性地利用全图像信息与BBox坐标指定感兴趣头部,无需像传统Non-LLM模型那样预先裁剪头部区域。这不仅减少了手动标注的工作量,实现了推理过程的自动化,还能让模型学习自注意力机制的全局特征与交叉注意力机制的兴趣头部特征,大幅提升了HPE任务的鲁棒性。

数据集的选择与处理同样精心策划。预训练依赖CrowdHuman的弱标签数据,微调采用Agora的精确标注,复习图像则来自Refcoco系列数据集以缓解灾难性遗忘。评估阶段选用CMU Panoptic数据集的子集作为HPE测试集,其真实行人全景图像与现实场景高度接近;BBox评估则采用Refcoco和Refcoco+的testA、testB数据及Refcocog测试集。实验中通过调整复习图像比例,确定了最佳复习策略。

实现细节方面,以原始接地CogVLM为基础模型,LoRA秩设为10,预训练学习率为特定值,所有其他参数遵循CogVLM默认设置。训练在两台NVIDIA A100 80GB GPU上进行,批处理大小为8,框架各阶段训练耗时分别为20、50和10小时。评估指标涵盖HPE的平均绝对误差(MAE)、无效答案比率以及BBox预测的准确率等,全面衡量模型性能。

基线方法比较中,HPE-CogVLM展现出压倒性优势。与Non-LLMs(6DRepNet、HopeNet、WHENet)相比,其MAE分别降低31.5%、66.8%和75.1%;与非合并CogVLM相比,MAE低10%,无效答案比率小2.5倍;与任务算术(TA)合并CogVLM相比,HPE-CogVLM在BBox预测准确度上更高,且无效答案比率极低(TA合并模型无效比率是其1325倍)。特别值得注意的是,面向HPE的CogVLM在仅训练9个周期后,MAE便达到6.24,较同期6DRepNet低45.5%,即便6DRepNet训练100个周期,其在CMU数据集上的跨域MAE仍高达11.4,凸显了VLM相较于传统Non-LLM的显著性能优势和抗过拟合能力。

灾难性遗忘缓解与最优复习比例探索

灾难性遗忘是LLM在学习新知识时普遍面临的关键问题,HPE-CogVLM框架通过系统探索最优复习比例有效缓解了这一挑战。实验结果表明,复习比例对多任务学习(BBox预测与HPE)性能平衡具有显著影响。较低复习比例(10%)的模型HPE任务MAE为7.36,比较高复习比例(25%)的模型(MAE 8.36)低12%;而随着复习比例提高,BBox预测任务的Refcoco测试准确度略有提升(0.3%)。这表明高复习比例有助于更好保留旧知识,但会牺牲新任务性能。综合权衡,10%的复习比例被确定为最优选择,在HPE精度与BBox定位能力之间取得了理想平衡。

这种现象与人类学习过程既有相似也有差异。相似之处在于,适度回顾旧知识有助于新知识的吸收与巩固;不同之处在于,当前模型在高复习比例下新任务性能下降较为明显,而人类学习中新旧知识往往能相互促进。这一发现为未来VLM的持续学习研究提供了重要启示:如何设计更接近人类认知模式的知识整合机制,实现新旧能力的协同增强而非简单权衡。

结论与展望:HPE技术的范式转变

HPE-CogVLM框架的提出,标志着头部姿态估计技术从传统Non-LLM方法向VLM融合方法的范式转变。该框架通过创新的提示设计,使CogVLM能够从全图像中学习HPE,彻底摆脱了对裁剪头部图像的依赖,有效避免了模型对有限背景的过拟合。通过系统探索最优复述比例,成功缓解了灾难性遗忘问题,并创新性地引入基于层的合并方法,确保了模型在保留原始BBox定位能力的同时,显著提升HPE任务的精度与鲁棒性。

实验结果无可辩驳地证明了HPE-CogVLM的优越性:在跨数据集评估中,较Non-LLM的SOTA方法MAE降低31.5%;与其他基于VLM的方法(非合并CogVLM、TA合并CogVLM)相比,在MAE和无效答案比率上均表现更优。特别是面向HPE的CogVLM在仅9个训练周期内,MAE便较同期6DRepNet降低45.5%,且展现出优异的跨域泛化能力,而6DRepNet在100个周期训练后仍深陷过拟合泥潭。

尽管取得了显著成功,HPE-CogVLM仍存在一定局限性,主要体现在GPU资源限制导致未能充分探索更大规模实验。未来研究方向将聚焦于:进一步优化层合并策略以实现更精细的知识融合;探索动态复习机制,根据任务特性自适应调整复习比例与内容;以及将该框架推广应用于其他需要精确视觉定位与数值预测的复杂接地任务,如3D人体姿态估计、行为意图预测等,持续拓展VLM在计算机视觉领域的应用边界。HPE-CogVLM的出现,不仅为HPE技术的实用化扫清了关键障碍,更为视觉语言模型在多模态精确感知任务中的深度应用树立了新的里程碑。

图中展示了CogVLM的边界框定位示例(左)和HPE-CogVLM的头部姿态估计结果(右),右侧图中用欧拉角(pitch、roll、yaw)可视化了头部朝向角度。 该图片直观对比了CogVLM的核心能力与HPE-CogVLM的创新成果。左侧展示的边界框定位是CogVLM的基础视觉能力,为HPE任务提供了精准的头部区域锚定;右侧则清晰呈现了HPE-CogVLM输出的欧拉角可视化结果,直接体现了模型对头部三维姿态的精确理解。这种对比有助于读者快速把握HPE-CogVLM如何基于VLM的既有能力实现HPE任务的突破,理解技术演进的内在逻辑。

【免费下载链接】cogvlm-chat-hf 【免费下载链接】cogvlm-chat-hf 项目地址: https://ai.gitcode.com/zai-org/cogvlm-chat-hf

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值