自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 多模态入门-笔记3(SAM模型)

Segment Anything:一个图像分割新的任务、模型和数据集。一个强大的图像编码器计算图像嵌入,一个提示编码器嵌入提示,然后将两个信息源组合在一个轻量级掩码解码器中来预测分割掩码。我们将此模型称为Segment Anything,或SAM。通过将SAM分离为一个图像编码器和一个快速提示编码器/掩码解码器,相同的图像嵌入可以用不同的提示被重用(及其成本摊销)。给定一个图像嵌入,提示编码器和掩码解码器在web浏览器中以50毫秒的提示预测掩码。

2025-04-18 09:00:00 1409

原创 多模态入门-笔记 2(CLIP)

特征提取之后,由于做了normalize,直接相乘来计算余弦距离,同一pair对的结果趋近于1,不同pair对的结果趋近于0(图中对角线的目标为 1,其他地方的目标为 0)因此就可以采用对比损失loss(info-nce-loss)image encoder:resnet/vit 等。text encoder:bert/gpt 等。clip 泛化能力非常强。

2025-04-17 16:14:00 208

原创 多模态入门-笔记 1

Image-grounded text decoder:用causal self-attention层(预测下一个token)代替了双向自注意力层(建立当前输入token的表达)【和左边的encoder共享除了self-attention之外的层】Image-grounded text encoder:在文本embedding中注入了图像特征,通过在self-attention和FFN中间增加一层cross-attention来对齐text-encoder和img-encoder的特征。

2025-04-17 15:35:18 1241

原创 apex手动安装配置问题

手动安装 apex 时一直报没有“torch”这个错,但明明 pip install 了,并且不同版本都尝试过了。实测用了 1.6.0 和 2.5.0 的 torch 版本,只要是 conda 安装,都可以成功。比如 CUDA12.4可以用下面的命令。一定要用 conda install。之后运行下面的命令就 ok 了!具体配置安装版本可以看。

2024-11-26 15:14:25 682

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除