m0_51152860-优快云博客

原创多模态入门-笔记3（SAM模型）

Segment Anything：一个图像分割新的任务、模型和数据集。一个强大的图像编码器计算图像嵌入，一个提示编码器嵌入提示，然后将两个信息源组合在一个轻量级掩码解码器中来预测分割掩码。我们将此模型称为Segment Anything，或SAM。通过将SAM分离为一个图像编码器和一个快速提示编码器/掩码解码器，相同的图像嵌入可以用不同的提示被重用（及其成本摊销）。给定一个图像嵌入，提示编码器和掩码解码器在web浏览器中以50毫秒的提示预测掩码。

2025-04-18 09:00:00 1409

原创多模态入门-笔记 2（CLIP）

特征提取之后，由于做了normalize，直接相乘来计算余弦距离，同一pair对的结果趋近于1，不同pair对的结果趋近于0（图中对角线的目标为 1，其他地方的目标为 0）因此就可以采用对比损失loss（info-nce-loss）image encoder：resnet/vit 等。text encoder：bert/gpt 等。clip 泛化能力非常强。

2025-04-17 16:14:00 208

原创多模态入门-笔记 1

Image-grounded text decoder：用causal self-attention层（预测下一个token）代替了双向自注意力层（建立当前输入token的表达）【和左边的encoder共享除了self-attention之外的层】Image-grounded text encoder：在文本embedding中注入了图像特征，通过在self-attention和FFN中间增加一层cross-attention来对齐text-encoder和img-encoder的特征。

2025-04-17 15:35:18 1241

原创 apex手动安装配置问题

手动安装 apex 时一直报没有“torch”这个错，但明明 pip install 了，并且不同版本都尝试过了。实测用了 1.6.0 和 2.5.0 的 torch 版本，只要是 conda 安装，都可以成功。比如 CUDA12.4可以用下面的命令。一定要用 conda install。之后运行下面的命令就 ok 了！具体配置安装版本可以看。

2024-11-26 15:14:25 682

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 多模态入门-笔记3（SAM模型）

原创 多模态入门-笔记 2（CLIP）

原创 多模态入门-笔记 1

原创 apex手动安装配置问题

空空如也

空空如也

原创多模态入门-笔记3（SAM模型）

原创多模态入门-笔记 2（CLIP）

原创多模态入门-笔记 1