Averill_-优快云博客

原创【论文阅读】多模态——CLIPasso

CLIPasso提出基于CLIP与贝塞尔曲线的简笔画生成方法，通过语义损失（对齐CLIP特征）与几何损失（约束浅层特征）优化可微分光栅化的笔画参数，结合ViT显著性图初始化提升训练稳定性。支持任意语义类别，通过笔画数量控制抽象程度，但需预处理抠图且非序列生成。

2025-03-10 00:58:14 1215 1

原创【论文阅读】多模态——LSeg

本文提出基于CLIP的零样本语义分割方法(LSeg)，冻结CLIP文本编码器权重，将文本特征与ViT图像特征逐像素相乘，通过两层空间卷积融合特征。训练使用有监督分割数据，在推理阶段通过任意文本提示实现像素级分割。实验表明在PASCAL-5等数据集上显著优于传统零样本方法，但与少样本方法仍有差距。创新点在于构建语言感知特征空间，但未解释四层空间规整失效现象。

2025-03-06 22:08:04 1219 1

本文提出PointCLIP，将CLIP的2D视觉-语言预训练能力迁移至3D点云理解。通过多视角投影将点云转化为伪2D图像，结合可学习的视图间适配器进行特征融合，在ModelNet40数据集上仅用10%数据实现87.2%的分类准确率，逼近全监督方法。实验表明，模型融合策略能利用2D/3D特征互补性提升性能，但Zero-Shot效果仍有局限。该工作为低资源3D识别提供了新思路，验证了跨模态预训练模型在三维领域的扩展潜力。

2025-03-05 19:58:30 889 1

原创【论文阅读】多模态——ActionCLIP

ActionCLIP提出视频动作识别新范式，通过多模态框架融合视频时空特征与文本语义信息，利用CLIP预训练模型实现zero-shot迁移。核心创新包括：1) 对比学习框架计算视频-文本余弦相似性，采用KL散度优化；2) 设计预训练-提示-微调三阶段流程，文本提示扩展标签语义，视觉提示适配不同编码器结构；3) 实验验证多模态框架显著提升性能，预训练与提示步骤均关键，零样本迁移效果优于SOTA方法。该工作突破传统固定标签限制，为通用视频理解提供新思路。

2025-03-04 14:40:13 1024 1

原创【论文阅读】多模态——CLIP4Clip

本文提出CLIP4Clip模型，将预训练CLIP迁移至视频文本检索任务，设计无参数、序列型及紧密型相似度计算器，通过端到端训练在多个数据集上达到SOTA。实验表明，后预训练可提升性能，但3D投影效果不及2D，且模型对学习率敏感，为视频检索提供有效迁移方案。

2025-03-03 01:44:25 1226 1

原创【论文阅读】多模态——GroupViT

8. 计算图像嵌入和文本嵌入的相似度（通过点乘），将匹配的图像-文本对作为。

2025-03-02 11:11:37 1110 2

原创【论文阅读】多模态——GLIP

GLIP通过统一目标检测与短语定位任务，引入跨模态深度融合模块和伪标签数据扩展，显著提升模型性能，在COCO、LVIS等数据集上zero-shot表现超越监督模型。

2025-03-01 12:10:25 1344 1

原创【论文阅读】多模态——ViLD

本文提出ViLD方法，通过CLIP模型进行视觉语言知识蒸馏，实现开放词汇目标检测。训练时利用图像/文本嵌入对齐区域特征，推理时结合基础/新增类别的文本嵌入实现零样本检测。实验显示ViLD在新类别上精度显著超越监督方法，为下游任务使用CLIP提供参考。

2025-02-28 11:16:59 888 1

原创【论文阅读】多模态——ViLT

都是用预训练的BERT里的tokenizer，而。

2025-02-27 19:28:54 565 1

原创【论文阅读】多模态——CLIP

zero-shot学习通常指的是对图像分类中未见过的物体类别进行泛化的研究，可以看作是在进行表征学习和度量学习的基础上，通过借助辅助信息（属性或文本）实现跨模态知识的迁移，从而完成可见类信息到未见类信息推断的迁移学习过程。虽然物体的类别不同，但是物体间存在相同的属性，提炼出每一类别对应的属性并利用若干个学习器学习。在测试时对测试数据的属性预测，再将预测出的属性组合，对应到类别，实现对测试数据的类别预测。

2025-02-26 22:19:04 906 1

原创【操作技巧】screen、环境、Anaconda下载源、Shell脚本的操作技巧

一个在服务器上训练模型的小技巧，自己的电脑关机，训练也不会停止。注意：要先切换到相应显卡服务器，例如ssh gpu04。

2025-02-24 11:54:36 593

原创【论文阅读】自监督

1. De’HuBERT模型：针对自监督语音模型在噪声环境鲁棒性差的问题，提出De’HuBERT框架，通过引入基于Barlow原则的辅助损失减少冗余表征，使模型对噪声不敏感，在提升噪声场景性能的同时保持干净数据集的识别效果。2. 对比学习AU检测：针对面部动作单元检测中特征差异小、类不平衡及噪声标签的挑战，提出结合自监督与监督学习的对比框架，采用负样本重加权和采样策略，显著提升多数据集检测性能。

2025-02-22 12:05:10 387 1

原创【rPPG思考】排序的思想

因此可以尝试将RNC损失应用其中。

2025-02-20 12:30:12 855

原创【rPPG思考】未来的方向

个性化模型和通用模型之间存在，旧的个性化模型会调整通用模型的参数，而新的个性化模型又在通用模型的基础上调整参数。此外，每个个体的数据集需要进行拆分。

2025-02-18 11:49:21 780

原创远程光电容积描记术（rPPG）综述

需要经验知识来选择设计信号处理滤波器的适当参数。缺乏先进的视频处理工具和有监督学习模型来应对数据变化，尤其是在具有大量干扰的挑战性环境中。

2025-02-15 08:00:00 1146 1

m0_58701995的博客