- 博客(15)
- 收藏
- 关注
原创 【论文阅读】多模态——CLIPasso
CLIPasso提出基于CLIP与贝塞尔曲线的简笔画生成方法,通过语义损失(对齐CLIP特征)与几何损失(约束浅层特征)优化可微分光栅化的笔画参数,结合ViT显著性图初始化提升训练稳定性。支持任意语义类别,通过笔画数量控制抽象程度,但需预处理抠图且非序列生成。
2025-03-10 00:58:14
1215
1
原创 【论文阅读】多模态——LSeg
本文提出基于CLIP的零样本语义分割方法(LSeg),冻结CLIP文本编码器权重,将文本特征与ViT图像特征逐像素相乘,通过两层空间卷积融合特征。训练使用有监督分割数据,在推理阶段通过任意文本提示实现像素级分割。实验表明在PASCAL-5等数据集上显著优于传统零样本方法,但与少样本方法仍有差距。创新点在于构建语言感知特征空间,但未解释四层空间规整失效现象。
2025-03-06 22:08:04
1219
1
原创 【论文阅读】多模态——PointCLIP
本文提出PointCLIP,将CLIP的2D视觉-语言预训练能力迁移至3D点云理解。通过多视角投影将点云转化为伪2D图像,结合可学习的视图间适配器进行特征融合,在ModelNet40数据集上仅用10%数据实现87.2%的分类准确率,逼近全监督方法。实验表明,模型融合策略能利用2D/3D特征互补性提升性能,但Zero-Shot效果仍有局限。该工作为低资源3D识别提供了新思路,验证了跨模态预训练模型在三维领域的扩展潜力。
2025-03-05 19:58:30
889
1
原创 【论文阅读】多模态——ActionCLIP
ActionCLIP提出视频动作识别新范式,通过多模态框架融合视频时空特征与文本语义信息,利用CLIP预训练模型实现zero-shot迁移。核心创新包括:1) 对比学习框架计算视频-文本余弦相似性,采用KL散度优化;2) 设计预训练-提示-微调三阶段流程,文本提示扩展标签语义,视觉提示适配不同编码器结构;3) 实验验证多模态框架显著提升性能,预训练与提示步骤均关键,零样本迁移效果优于SOTA方法。该工作突破传统固定标签限制,为通用视频理解提供新思路。
2025-03-04 14:40:13
1024
1
原创 【论文阅读】多模态——CLIP4Clip
本文提出CLIP4Clip模型,将预训练CLIP迁移至视频文本检索任务,设计无参数、序列型及紧密型相似度计算器,通过端到端训练在多个数据集上达到SOTA。实验表明,后预训练可提升性能,但3D投影效果不及2D,且模型对学习率敏感,为视频检索提供有效迁移方案。
2025-03-03 01:44:25
1226
1
原创 【论文阅读】多模态——GLIP
GLIP通过统一目标检测与短语定位任务,引入跨模态深度融合模块和伪标签数据扩展,显著提升模型性能,在COCO、LVIS等数据集上zero-shot表现超越监督模型。
2025-03-01 12:10:25
1344
1
原创 【论文阅读】多模态——ViLD
本文提出ViLD方法,通过CLIP模型进行视觉语言知识蒸馏,实现开放词汇目标检测。训练时利用图像/文本嵌入对齐区域特征,推理时结合基础/新增类别的文本嵌入实现零样本检测。实验显示ViLD在新类别上精度显著超越监督方法,为下游任务使用CLIP提供参考。
2025-02-28 11:16:59
888
1
原创 【论文阅读】多模态——CLIP
zero-shot学习通常指的是对图像分类中未见过的物体类别进行泛化的研究,可以看作是在进行表征学习和度量学习的基础上,通过借助辅助信息(属性或文本)实现跨模态知识的迁移,从而完成可见类信息到未见类信息推断的迁移学习过程。虽然物体的类别不同,但是物体间存在相同的属性,提炼出每一类别对应的属性并利用若干个学习器学习。在测试时对测试数据的属性预测,再将预测出的属性组合,对应到类别,实现对测试数据的类别预测。
2025-02-26 22:19:04
906
1
原创 【操作技巧】screen、环境、Anaconda下载源、Shell脚本的操作技巧
一个在服务器上训练模型的小技巧,自己的电脑关机,训练也不会停止。注意:要先切换到相应显卡服务器,例如ssh gpu04。
2025-02-24 11:54:36
593
原创 【论文阅读】自监督
1. De’HuBERT模型:针对自监督语音模型在噪声环境鲁棒性差的问题,提出De’HuBERT框架,通过引入基于Barlow原则的辅助损失减少冗余表征,使模型对噪声不敏感,在提升噪声场景性能的同时保持干净数据集的识别效果。2. 对比学习AU检测:针对面部动作单元检测中特征差异小、类不平衡及噪声标签的挑战,提出结合自监督与监督学习的对比框架,采用负样本重加权和采样策略,显著提升多数据集检测性能。
2025-02-22 12:05:10
387
1
原创 【rPPG思考】未来的方向
个性化模型和通用模型之间存在,旧的个性化模型会调整通用模型的参数,而新的个性化模型又在通用模型的基础上调整参数。此外,每个个体的数据集需要进行拆分。
2025-02-18 11:49:21
780
原创 远程光电容积描记术(rPPG) 综述
需要经验知识来选择设计信号处理滤波器的适当参数。缺乏先进的视频处理工具和有监督学习模型来应对数据变化,尤其是在具有大量干扰的挑战性环境中。
2025-02-15 08:00:00
1146
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人