CLIP4Clip 项目使用教程

最新推荐文章于 2025-03-03 01:44:25 发布

霍忻念

最新推荐文章于 2025-03-03 01:44:25 发布

阅读量675

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00436/article/details/141152887

CLIP4Clip 项目使用教程

CLIP4ClipAn official implementation for "CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval"项目地址:https://gitcode.com/gh_mirrors/cl/CLIP4Clip

1. 项目的目录结构及介绍

CLIP4Clip 项目的目录结构如下：

CLIP4Clip/
├── dataloaders/
│   ├── __init__.py
│   └── ...
├── modules/
│   ├── __init__.py
│   └── ...
├── preprocess/
│   ├── __init__.py
│   └── ...
├── .gitignore
├── CLIP4Clip.png
├── LICENSE
├── README.md
├── main_task_retrieval.py
├── metrics.py
├── util.py
└── ...

目录结构介绍

dataloaders/: 包含数据加载相关的模块。
modules/: 包含项目的主要模块。
preprocess/: 包含数据预处理相关的模块。
.gitignore: Git 忽略文件配置。
CLIP4Clip.png: 项目图标。
LICENSE: 项目许可证。
README.md: 项目说明文档。
main_task_retrieval.py: 项目的主任务文件。
metrics.py: 评估指标相关的模块。
util.py: 工具函数模块。

2. 项目的启动文件介绍

项目的启动文件是 main_task_retrieval.py。这个文件包含了训练和评估的主要逻辑。以下是启动文件的基本使用方法：

python -m torch.distributed.launch --nproc_per_node=8 \
main_task_retrieval.py --do_train --num_thread_reader=2 \
--epochs=5 --batch_size=128 --n_display=50 \
--data_path $[DATA_PATH] \
--features_path $[DATA_PATH]/DiDeMo_Videos \
--output_dir ckpts/ckpt_didemo_retrieval_looseType \
--lr 1e-4 --max_words 64 --max_frames 64 --batch_size_val 16 \
--datatype didemo --feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0 --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32