- 博客(4)
- 收藏
- 关注
原创 多模态入门-笔记3(SAM模型)
Segment Anything:一个图像分割新的任务、模型和数据集。一个强大的图像编码器计算图像嵌入,一个提示编码器嵌入提示,然后将两个信息源组合在一个轻量级掩码解码器中来预测分割掩码。我们将此模型称为Segment Anything,或SAM。通过将SAM分离为一个图像编码器和一个快速提示编码器/掩码解码器,相同的图像嵌入可以用不同的提示被重用(及其成本摊销)。给定一个图像嵌入,提示编码器和掩码解码器在web浏览器中以50毫秒的提示预测掩码。
2025-04-18 09:00:00
1409
原创 多模态入门-笔记 2(CLIP)
特征提取之后,由于做了normalize,直接相乘来计算余弦距离,同一pair对的结果趋近于1,不同pair对的结果趋近于0(图中对角线的目标为 1,其他地方的目标为 0)因此就可以采用对比损失loss(info-nce-loss)image encoder:resnet/vit 等。text encoder:bert/gpt 等。clip 泛化能力非常强。
2025-04-17 16:14:00
208
原创 多模态入门-笔记 1
Image-grounded text decoder:用causal self-attention层(预测下一个token)代替了双向自注意力层(建立当前输入token的表达)【和左边的encoder共享除了self-attention之外的层】Image-grounded text encoder:在文本embedding中注入了图像特征,通过在self-attention和FFN中间增加一层cross-attention来对齐text-encoder和img-encoder的特征。
2025-04-17 15:35:18
1241
原创 apex手动安装配置问题
手动安装 apex 时一直报没有“torch”这个错,但明明 pip install 了,并且不同版本都尝试过了。实测用了 1.6.0 和 2.5.0 的 torch 版本,只要是 conda 安装,都可以成功。比如 CUDA12.4可以用下面的命令。一定要用 conda install。之后运行下面的命令就 ok 了!具体配置安装版本可以看。
2024-11-26 15:14:25
682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅