自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【论文阅读】多模态——CLIPasso

CLIPasso提出基于CLIP与贝塞尔曲线的简笔画生成方法,通过语义损失(对齐CLIP特征)与几何损失(约束浅层特征)优化可微分光栅化的笔画参数,结合ViT显著性图初始化提升训练稳定性。支持任意语义类别,通过笔画数量控制抽象程度,但需预处理抠图且非序列生成。

2025-03-10 00:58:14 1215 1

原创 【论文阅读】多模态——LSeg

本文提出基于CLIP的零样本语义分割方法(LSeg),冻结CLIP文本编码器权重,将文本特征与ViT图像特征逐像素相乘,通过两层空间卷积融合特征。训练使用有监督分割数据,在推理阶段通过任意文本提示实现像素级分割。实验表明在PASCAL-5等数据集上显著优于传统零样本方法,但与少样本方法仍有差距。创新点在于构建语言感知特征空间,但未解释四层空间规整失效现象。

2025-03-06 22:08:04 1219 1

原创 【论文阅读】多模态——PointCLIP

本文提出PointCLIP,将CLIP的2D视觉-语言预训练能力迁移至3D点云理解。通过多视角投影将点云转化为伪2D图像,结合可学习的视图间适配器进行特征融合,在ModelNet40数据集上仅用10%数据实现87.2%的分类准确率,逼近全监督方法。实验表明,模型融合策略能利用2D/3D特征互补性提升性能,但Zero-Shot效果仍有局限。该工作为低资源3D识别提供了新思路,验证了跨模态预训练模型在三维领域的扩展潜力。

2025-03-05 19:58:30 889 1

原创 【论文阅读】多模态——ActionCLIP

ActionCLIP提出视频动作识别新范式,通过多模态框架融合视频时空特征与文本语义信息,利用CLIP预训练模型实现zero-shot迁移。核心创新包括:1) 对比学习框架计算视频-文本余弦相似性,采用KL散度优化;2) 设计预训练-提示-微调三阶段流程,文本提示扩展标签语义,视觉提示适配不同编码器结构;3) 实验验证多模态框架显著提升性能,预训练与提示步骤均关键,零样本迁移效果优于SOTA方法。该工作突破传统固定标签限制,为通用视频理解提供新思路。

2025-03-04 14:40:13 1024 1

原创 【论文阅读】多模态——CLIP4Clip

本文提出CLIP4Clip模型,将预训练CLIP迁移至视频文本检索任务,设计无参数、序列型及紧密型相似度计算器,通过端到端训练在多个数据集上达到SOTA。实验表明,后预训练可提升性能,但3D投影效果不及2D,且模型对学习率敏感,为视频检索提供有效迁移方案。

2025-03-03 01:44:25 1226 1

原创 【论文阅读】多模态——GroupViT

8. 计算图像嵌入和文本嵌入的相似度(通过点乘),将匹配的图像-文本对作为。

2025-03-02 11:11:37 1110 2

原创 【论文阅读】多模态——GLIP

GLIP通过统一目标检测与短语定位任务,引入跨模态深度融合模块和伪标签数据扩展,显著提升模型性能,在COCO、LVIS等数据集上zero-shot表现超越监督模型。

2025-03-01 12:10:25 1344 1

原创 【论文阅读】多模态——ViLD

本文提出ViLD方法,通过CLIP模型进行视觉语言知识蒸馏,实现开放词汇目标检测。训练时利用图像/文本嵌入对齐区域特征,推理时结合基础/新增类别的文本嵌入实现零样本检测。实验显示ViLD在新类别上精度显著超越监督方法,为下游任务使用CLIP提供参考。

2025-02-28 11:16:59 888 1

原创 【论文阅读】多模态——ViLT

都是用预训练的BERT里的tokenizer,而。

2025-02-27 19:28:54 565 1

原创 【论文阅读】多模态——CLIP

zero-shot学习通常指的是对图像分类中未见过的物体类别进行泛化的研究,可以看作是在进行表征学习和度量学习的基础上,通过借助辅助信息(属性或文本)实现跨模态知识的迁移,从而完成可见类信息到未见类信息推断的迁移学习过程。虽然物体的类别不同,但是物体间存在相同的属性,提炼出每一类别对应的属性并利用若干个学习器学习。在测试时对测试数据的属性预测,再将预测出的属性组合,对应到类别,实现对测试数据的类别预测。

2025-02-26 22:19:04 906 1

原创 【操作技巧】screen、环境、Anaconda下载源、Shell脚本的操作技巧

一个在服务器上训练模型的小技巧,自己的电脑关机,训练也不会停止。注意:要先切换到相应显卡服务器,例如ssh gpu04。

2025-02-24 11:54:36 593

原创 【论文阅读】自监督

1. De’HuBERT模型:针对自监督语音模型在噪声环境鲁棒性差的问题,提出De’HuBERT框架,通过引入基于Barlow原则的辅助损失减少冗余表征,使模型对噪声不敏感,在提升噪声场景性能的同时保持干净数据集的识别效果。2. 对比学习AU检测:针对面部动作单元检测中特征差异小、类不平衡及噪声标签的挑战,提出结合自监督与监督学习的对比框架,采用负样本重加权和采样策略,显著提升多数据集检测性能。

2025-02-22 12:05:10 387 1

原创 【rPPG思考】排序的思想

因此可以尝试将RNC损失应用其中。

2025-02-20 12:30:12 855

原创 【rPPG思考】未来的方向

个性化模型和通用模型之间存在,旧的个性化模型会调整通用模型的参数,而新的个性化模型又在通用模型的基础上调整参数。此外,每个个体的数据集需要进行拆分。

2025-02-18 11:49:21 780

原创 远程光电容积描记术(rPPG) 综述

需要经验知识来选择设计信号处理滤波器的适当参数。缺乏先进的视频处理工具和有监督学习模型来应对数据变化,尤其是在具有大量干扰的挑战性环境中。

2025-02-15 08:00:00 1146 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除