
基于prompt视觉语言模型的长视频行文理解分析
文章平均质量分 81
邪恶的贝利亚
这个作者很懒,什么都没留下…
展开
-
神经网络复习
你可以理解为一种。原创 2025-04-15 17:43:22 · 1022 阅读 · 0 评论 -
vita-clip 模型(从源码层次)
跨帧交流。原创 2025-03-27 18:35:43 · 626 阅读 · 0 评论 -
讲解vita-clip论文
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting由 Syed Talal Wasim 等人撰写。文章提出多模态提示学习方案 Vita-CLIP,以平衡视频识别任务中监督学习和零样本学习的性能,通过引入额外可学习参数,在保持预训练骨干网络冻结的情况下,实现优异的零样本性能和有竞争力的监督性能。下面从研究背景、创新点、实验结果和不足四个方面详细讲解。原创 2025-03-25 18:56:26 · 906 阅读 · 0 评论 -
基于 CLIP 的文本与视频编码及相关知识解析
本文详细阐述了基于 CLIP(Contrastive Language-Image Pretraining)的文本与视频编码过程。在文本编码方面,介绍了输入文本前的分词操作,如何根据文本提示组成特定长度的上下文,以及 nn.embeding 函数生成词嵌入向量等步骤,还提及 CLIP 文本编码器对数据维度的变换。在视频编码部分,深入讲解了训练和验证阶段的采样方式,视频塑形操作以及将视频输入图像编码器的原理,包括帧作为独立图像和逐帧处理的方法。此外,补充了 VIT(Vision Transformer)在视频原创 2025-03-25 18:38:48 · 831 阅读 · 0 评论 -
如何快速看懂并修改神经网络
看懂 action 和 x-clip代码原创 2025-03-24 18:12:40 · 1671 阅读 · 0 评论 -
混合精度-基于torch内部
混合精度原创 2025-03-21 18:34:17 · 408 阅读 · 0 评论 -
一文了解 分布式训练
分布式训练是指将深度学习模型的训练任务分散到多个计算节点上进行并行处理。通过这种方式,可以充分利用多个硬件资源,从而显著加快训练速度,提高训练效率。原创 2025-03-21 18:13:23 · 706 阅读 · 0 评论 -
安装并使用anaconda(宏观版)
拿包->安装->配置环境。原创 2025-03-18 19:56:54 · 235 阅读 · 0 评论 -
神经网络中常用语言特性(python)(待完善)
一些蕴含神经网络中蕴含细节原创 2025-03-14 11:43:52 · 398 阅读 · 0 评论 -
prompt工程起步
有关CLIP和ActionClip的手工特征,也是一个进步。通过给标签填入不同的修饰语当中,组成一段话来,来增强语义理解这个就是一个手工提示词,针对于特殊的任务设计出来的。text_dict就是蕴含着一个模板是键,对应不同的一句话!将输入标签随机选一个模板与视频进行对比学习!原创 2025-03-14 11:22:41 · 1620 阅读 · 0 评论 -
图像数据预处理
读源码有感 万变不离其宗原创 2025-03-14 11:14:51 · 865 阅读 · 0 评论 -
X-CLIP和X-FLORENCE论文解读
精度论文原创 2025-03-13 11:09:52 · 984 阅读 · 0 评论 -
多种注意力机制(文本->残差->视频)
讲述多种注意机制原创 2025-03-13 21:13:55 · 871 阅读 · 0 评论 -
神经网络的数据集处理
数据集的处理原创 2025-03-13 18:50:40 · 892 阅读 · 0 评论 -
神经网络常用库-torch(基础操作张量)
阅读有感 clip源码有感写的原创 2025-03-13 15:05:49 · 1129 阅读 · 0 评论 -
X-CLIP(模式识别版本)论文解读
粗粒度(Coarse-grained):主要关注视频和文本的整体特征对比。在实际操作中,是计算视频级和句子级特征之间的相似度,将整个视频看作一个整体,提取其全局特征,对于文本也是以整个句子为单位获取特征,然后衡量两者之间的相似程度。细粒度(Fine-grained):聚焦于视频和文本的局部细节特征对比。具体是计算帧级和词级特征之间的相似度,把视频拆分成每一帧,文本拆分成每个单词,然后对每一帧和每个单词的特征进行相似度计算。跨粒度(Cross-grained)原创 2025-03-12 19:43:25 · 657 阅读 · 0 评论 -
一些常用的库(wandb dotmap image randaugment tbqm apx)
Image模块能够让你创建、打开、操作和保存多种不同格式的图像文件。它支持常见的图像格式,如 JPEG、PNG、GIF、BMP 等,可进行的操作包括图像的读取、保存、调整大小、裁剪、旋转、颜色模式转换等。原创 2025-03-12 17:33:02 · 631 阅读 · 0 评论 -
视频理之ActionClip(源码模组挖掘)
'RN50''ViT-B/32'device'cpu''cuda'jitTrueFalsetsmTTdropoutpretrainpretrainjointjointmodel:返回加载好的 CLIP 模型实例。这个模型可以用于图像和文本的特征提取、图像 - 文本匹配等任务。:可以使用方法对图像进行编码,使用方法对文本进行编码。原创 2025-03-12 15:59:51 · 868 阅读 · 0 评论 -
视觉-语言模型-出发点CLIP--(挖掘源码-网络框架)
呕心沥血 clip源码挖掘之网络框架原创 2025-03-07 12:16:26 · 947 阅读 · 0 评论 -
视觉-语言模型-出发点CLIP--(精读论文)
clip的论文笔记原创 2025-03-06 20:43:00 · 1467 阅读 · 0 评论 -
视频理解开山之作 “双流网络”
最典型的例子是视频分类任务中的两个流,一个处理静态图像信息(通常是视频的每一帧),另一个处理动态信息(通常是光流,描述了视频帧之间的运动)。双流网络需要两个独立的网络处理不同的流,这意味着需要更多的计算资源,尤其是在处理长视频或高分辨率图像时。双流网络需要同时训练两个流,这可能会增加训练过程的复杂性,并且两个流之间的学习过程可能不完全同步,导致训练过程不稳定或收敛速度较慢。双流网络依赖于不同类型的数据(如图像和光流),如果数据不充分或质量不高,可能会导致信息缺失或冗余,影响最终的识别效果。原创 2025-03-06 10:31:10 · 1159 阅读 · 0 评论 -
视频预处理--经典方法卷积3D
在三维卷积操作中,卷积核不仅在空间维度上滑动,还在时间维度上滑动,从而同时捕捉时间和空间上的特征。通过合理设置步长和填充,可以灵活控制输出特征图的大小和特征提取的效果。你的理解非常准确:三维卷积核就像是一个长度为 3 的滑动窗口,每次选取 3 个连续的帧进行卷积操作,而步长和填充则进一步优化了这一过程。原创 2025-03-06 09:38:54 · 1279 阅读 · 0 评论 -
手把手教你源码-搭建vit
【代码】手把手教你源码-搭建vit。原创 2025-03-05 18:34:45 · 188 阅读 · 0 评论 -
python的运行--命令行
python工程文件看懂2.命令行1.python无疑是提供了一个库argparse 来实现命令行读取创建一个命令对象1.name or flag :--model这些2.required :你是否需要指定 默认为false 假如为true 你必须要实现 前面name赋值3.default:假如为false 那就是default4.help原创 2025-03-03 16:18:16 · 361 阅读 · 0 评论 -
开源项目之文本分类之 训练验证
神经网络训练模型套用原创 2025-03-03 10:40:42 · 672 阅读 · 0 评论 -
神经网络架构之transformer
一文读懂transformer 和工程实践 -调用api原创 2025-03-02 19:24:54 · 1789 阅读 · 0 评论 -
神经网络之CNN文本识别
目前对NLP的研究分析应用最多的就是RNN系列的框架,比如RNN,GRU,LSTM等等,再加上Attention,基本可以认为是NLP的标配套餐了。更为具体地理解可以看下图,输入为一个7x5的矩阵,filters的高度分别为2,3,4,宽度和输入矩阵一样为5。在CV中,filters是以一个patch(任意长度x任意宽度)的形式滑过遍历整个图像,但是在NLP中,filters会覆盖到所有的维度,也就是形状为。不同于CV输入的图像像素,NLP的输入是一个个句子或者文档。句子或文档在输入时经过。原创 2025-03-02 12:20:02 · 449 阅读 · 0 评论 -
开源项目-文本分类之数据集
本次目标实现基于新闻标题来分类class无疑是类别名 从0开始 标注的train test dev分别是训练集 测试集 验证集 大差不差embedding_SougouNews.npz和embedding_Tencent.npz是所用的词向量模型vocab.pkl是词汇表。原创 2025-03-01 10:47:31 · 605 阅读 · 0 评论 -
神经网络之词嵌入模型(基于torch api调用)
工程人员看的词嵌入 以及api实现原创 2025-02-28 17:53:27 · 741 阅读 · 0 评论 -
神经网络之RNN和LSTM(基于pytorch-api)
RNN以及LSTM原理 以及pytorchapi调用原创 2025-02-28 17:23:59 · 859 阅读 · 0 评论 -
一个基于resnet50层的识别花分类网络
一个基于花分类的实战原创 2025-02-27 20:56:02 · 324 阅读 · 0 评论 -
构建神经网络之Matplotlib(持续完善)
便于查找plt函数原创 2025-02-26 15:35:40 · 383 阅读 · 0 评论 -
构建神经网络之常用pandas(补充中 )
便于查找常用的panda是函数原创 2025-02-26 15:14:58 · 268 阅读 · 0 评论 -
神经网络之CNN图像识别(torch api 调用)
本文章属于工程实践 大概了解原理 动手做原创 2025-02-26 11:21:59 · 861 阅读 · 0 评论 -
python的语法规则 从小到大(与c++不同)
可调用对象意味着你可以在对象后面加上括号并传入参数来调用它,就像调用普通函数一样。在类的内部,使用 def 关键字来定义一个方法,与一般函数定义不同,类方法必须包含参数 self,且为第一个参数,self 代表的是类的实例。self 的名字并不是规定死的,也可以使用 this,但是最好还是按照约定使用 self。:两个下划线开头,声明该方法为私有方法,只能在类的内部调用 ,不能在类的外部调用。7.迭代是 Python 最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。原创 2025-02-23 18:05:20 · 281 阅读 · 0 评论 -
python数据类型细节(相对于c++而言)
这个文章 通过c++来了解python的基本概念原创 2025-02-23 16:37:22 · 228 阅读 · 0 评论