深度学习基础知识干货 | Videos 动作分类

本文总结了多模态大模型如GroundingDINO、CLIP和EVA-CLIP的研究,涵盖了深度学习基础知识,包括批量归一化、卷积模型计算、多分类损失函数等。还介绍了视频分类技术,如EarlyFusion、LateFusion和3DCNN,以及如何处理长视频序列的方法,如Self-Attention的应用。

🐧大模型系列篇章

💖 多模态大模型 🔎 GroundingDINO 论文总结
💖 端到端目标检测 🔎 从DETR 到 GroundingDINO 🔥
💖 多模态大模型 👉 CLIP论文总结
💖 多模态大模型 👉 EVA-CLIP
💚 生成模型 👉 从 VAE 到 Diffusion Model (上)
💚 生成模型 👉 从 VAE 到 Diffusion Model (下)🔥
💧 天气大模型

🐧深度学习基础知识篇

💖 深度学习基础知识干货 🔎 Batch Normalization 批量归一化
💖 深度学习基础知识干货 🔎 卷积模型的Memory, Params, Flop是如何计算的?
💖 深度学习基础知识干货 🔎 Cross-Entropy Loss 多分类损失函数
💖 深度学习基础知识干货 🔎 Videos 动作检测
💖 深度学习基础知识干货 🔎 目标检测(Object Detection): 你需要知道的一些概念
💖 深度学习基础知识干货 🔎 微调(fine-tuning)和泛化(generalization)
💖 深度学习基础知识干货 🔎 Group Convolution / Depthwise Convolution 轻量模型的必有的卷积
💖 深度学习基础知识干货 🔎 Gradient checkpointing
💖 深度学习基础知识干货 🔎 Softmax中温度(temperature)参数
💖 深度学习基础知识干货 🔎 什么是few-shot learning

欢迎订阅专栏,第一时间掌握最新科技
大模型系列篇章 专栏链接
深度学习基础知识 专栏链接

Video Classification

Early Fusion, Late Fusion, 3D CNN,

在这里插入图片描述
在这里插入图片描述

Recognizing Actions from Motion 从动作中识别行为

  • Measuring Motion: Optical Flow
  • Separating Motion and Appearance: Two-Stream Networks: Images(空间信息), Flow(时间信息)
    在这里插入图片描述
    在这里插入图片描述
    目前介绍的都是只能处理2s~5s的视频的模型。
    如果想处理长视频怎么办?
    我们之前学过RNN,但是RNN应用在长序列里面会非常的慢,不能并行(parallelized)。Self-Attention是可以并行计算的
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

接下来介绍新技术

在这里插入图片描述
在这里插入图片描述

回顾一下:非常多的video工作

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值