自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 资源 (2)
  • 收藏
  • 关注

原创 论文阅读:UniFormer和UniFormerV2

原文提出了一种新的UniFormer,它可以有效地统一3D卷积和时空自注意力在一个简洁的Transformer格式,以克服视频冗余和依赖。我们在浅层采用局部MHRA,大大减少了计算负担,在深层采用全局MHRA,学习全局令牌关系。大量的实验表明,我们的UniFormer在流行的视频基准测试Kinetics-400/600和Something-Something V1/V2上实现了准确性和效率之间的较好平衡。

2024-03-24 21:22:28 1779 2

原创 论文阅读:Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos(S2D)

在本文中,我们提出了一个简单而强大的框架,S2D,它适应了一个关键点感知的图像模型,用于视频中的面部表情识别。本研究表明可以利用来自SFER数据和面部界标检测的先验知识来增强DFER性能。这项工作中采用的多视图互补提示器(MCP)有效地利用了在AffectNet数据集上学习的静态面部表情特征和来自MobileFaceNet 的面部地标感知特征。此外,S2D加入时间建模适配器(TMA)从静态表情识别拓展到动态表情识别,并采用了自蒸馏损失(SDL)。

2024-03-17 22:18:28 1475 2

原创 Vision Mamba:使用双向状态空间模型进行高效视觉表示学习

该方法利用位置嵌入对图像序列进行标记,并利用双向状态空间模型对视觉表示进行压缩。ViT可以通过自注意为每个图像块提供数据/块相关的全局上下文通过将图像视为没有2D归纳偏差的补丁序列来进行模态不可知建模,这使其成为多模态应用的优选架构VIT的缺点:处理长距离视觉依赖时的速度和内存使用较差Mamba用于视觉任务的挑战:单向建模和缺乏位置意识本文提出Vision Mamba(Vim),它采用了双向SSM数据相关的全局视觉上下文建模和用于位置感知视觉理解的位置嵌入。

2024-02-25 23:13:41 3362

原创 Task05:PPO算法

PG方法的缺点是数据效率和鲁棒性不好。同时TRPO方法又比较复杂,且不兼容dropout(在深度神经网络训练过程中按照一定概率对网络单元进行丢弃)和参数共享(策略和值函数间)。这篇论文提出了PPO算法,它是对TRPO算法的改进,更易于实现,且数据效率更高。TRPO方法中通过使用约束而非惩罚项来保证策略更新的稳定性,主要原因是作为惩罚项的话会引入权重因子,而这个参数难以调节。TRPO中为了解优化问题,先线性近似目标函数,二阶近似约束,最后通过conjugate gradient算法和line search求解

2024-02-01 23:57:35 1210

原创 Task04:DDPG、TD3算法

本文主要介绍了强化学习中较为常用的一类算法,即 DDPG和TD3算法,它们虽然在结构上被归类于Actor-Critic算法,但从原理上来说跟DQN算法更为接近。先介绍了DDPG算法,它相当于DQN算法的一个连续动作空间版本扩展,它在DDPG在动作中引入噪声进一步提升了模型的探索能力。之后介绍了TD3算法,它主要包括了双Q网络、延迟更新和躁声正则。最后进行了代码实战。

2024-01-27 02:45:19 1684

原创 深度强化学习Task3:A2C、A3C算法

本文首先从蒙特卡洛策略梯度算法和基于价值的DQN族算法的缺陷进行切入,引出了Actor-Critic 算法。该算法主要是对Critic 部分进行了改进,在Q Actor-Critic 算法提出的通用框架下,引入一个优势函数,即A2C算法。原先的 A2C算法相当于只有一个全局网络并持续与环境交互更新,而A3C算法中增加了多个进程,使每一个进程都拥有一个独立的网络和环境以供交互,并且每个进程每隔一段时间都会将自己的参数同步到全局网络中,提高了训练效率。之后介绍了广义优势估计着一种通用的模块,它在实践中可以用在

2024-01-24 00:20:09 1730

原创 深度强化学习Task2:策略梯度算法

本文从对比基于价值的算法和基于梯度的算法,分析了它们各自的优缺点,之后用一个直观的例子引入了策略梯度算法,REINFORCE算法用来解决轨迹无限多而无法计算的问题,但是这个算法由于假定了目标是使得每回合的累积价值最大,而每回合的累积奖励或回报会受到很多因素的影响,比如回合的长度、奖励的稀疏性等等,从而泛化性不够。为了解决这个问题,提出了基于平稳分布的策略梯度算法。最后介绍了一下策略函数的实现。

2024-01-21 02:01:56 1904

原创 深度强化学习Task1:马尔可夫过程、DQN算法回顾

本篇文章首先介绍了什么是强化学习,强化学习的作用以及应用场景。之后介绍了马尔可夫决策这一基本强化学习问题,了解了马尔可夫决策过程主要包含哪些要素,以及它和马尔可夫链之间的关系。之后我们学习了DQN算法,它首次将深度学习引入强化学习中,通过与Q-learning的对比介绍了DQN算法的基本流程以及代码实现。最后介绍了一些DQN算法的变种。

2024-01-17 16:19:35 1485

原创 Pytorch基础知识点复习

本篇博客是本人对pytorch使用的查漏补缺,参考资料来自[深入浅出PyTorch](https://datawhalechina.github.io/thorough-pytorch),本文主要以提问的方式对知识点进行回顾,列举了pytorch初学者常见的问题,大家可以按需求进行查阅,或者对自己的pytorch的基础知识进行测试。

2024-01-14 21:59:24 1350

原创 Video classification with UniFormer基于统一分类器的视频分类

原文提出了一种新的UniFormer,它可以有效地统一3D卷积和时空自注意力在一个简洁的Transformer格式,以克服视频冗余和依赖。我们在浅层采用局部MHRA,大大减少了计算负担,在深层采用全局MHRA,学习全局令牌关系。大量的实验表明,我们的UniFormer在流行的视频基准测试Kinetics-400/600和Something-Something V1/V2上实现了准确性和效率之间的较好平衡。

2024-01-07 19:59:13 1196

原创 海口租房数据分析

2023-12-24 23:25:10 93

原创 ActionCLIP:A New Paradigm for Video Action Recognition

本文将动作识别看作是一个视频-文本多模态学习问题,为动作识别提供了一个新的视角。与将任务建模为视频单模态分类问题的规范方法不同,我们提出了一个多模态学习框架来利用标签文本的语义信息。然后,我们制定了一个新的范式,即,“预训练、提示、微调”,使我们的框架能够直接重用强大的大规模Web数据预训练模型,大大降低了预训练成本。

2023-12-17 20:06:48 1089

原创 加载预训练权重时不匹配

复现论文时,加载已经训练好的.pt文件进行推理,发现准确率很低。

2023-12-05 02:19:08 556

原创 面部动作在情绪识别中的作用(nature reviews psychology2023)

过去大多数关于情绪识别的研究都使用了摆拍的表情照片,旨在描绘情绪表现的峰值。虽然这些研究为人们如何在面部感知情绪提供了重要的见解,但它们必然会遗漏动态信息的任何作用。在这篇综述中,我们综合了视觉科学、情感科学和神经科学的证据,探讨了动态信息在静态图像中传达的信息之外,何时、如何以及为什么有助于情感识别。动态显示提供了独特的时间信息,如运动的方向,质量和速度,补充了更高层次的认知过程和支持社会和情感推理,增强面部情感的判断。动态信息对情绪识别的积极影响在观察者受损和/或面部表情退化或微妙的次优条件下最为明显。

2023-12-03 22:39:08 945

原创 论文阅读:Intensity-Aware Loss for Dynamic Facial Expression Recognition in the Wild(AAAI2023)

与基于图像的静态人脸表情识别(SFER)任务相比,基于视频序列的动态人脸表情识别(DFER)任务更接近自然表情识别场景。然而,DFER往往更具挑战性。其中一个主要原因是,特别是对于真实世界场景中的面部表情,而SFER中的图像经常呈现均匀且高的表情强度。然而,如果同等对待不同强度的表情,网络学习的特征将具有,这对DFER是有害的。为了解决这个问题,我们提出了,以帮助网络区分表达强度相对较低的样本。在两个野外动态面部表情数据集上的实验(即,DFEW和FERV39k)表明,我们的方法优于最先进的DFER方法。

2023-11-21 22:57:31 421 3

原创 随机过程-张灏

将持续更新——第一次更新:2023-11-19。

2023-11-19 20:39:58 511

原创 论文阅读:LOGO-Former: Local-Global Spatio-Temporal Transformer for DFER(ICASSP2023)

在本文中,我们提出了一个简单而有效的局部-全局Transformer(LOGO-Former)和紧凑的损失正则化项在野生动态面部表情识别(DFER)。我们联合应用每个块内的局部注意力和全局注意力来迭代地学习时空表示。为了进一步提高模型的判别能力,我们通过紧凑的损失正则化项对预测分布施加约束,以增强类内相关性并增加类间距离。实验结果和可视化结果表明,我们的方法学习的歧视性时空特征表示,并提高了分类边缘。

2023-11-07 11:11:20 884

原创 (14)学习笔记:动手深度学习(Pytorch神经网络基础)

将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意,输出的形状可能与输入的形状不同。例如,我们上面模型中的第一个全连接的层接收一个20维的输入,但是返回一个维度为256的输出。计算其输出关于输入的梯度,可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。# 用模型参数声明层。这里,我们声明两个全连接的层# 调用`MLP`的父类`Module`的构造函数来执行必要的初始化。

2023-11-05 22:12:49 468

原创 Git基础命令实践

本文主要记录了我在学习git操作的过程,以及如何使用GitHub。建议先参考廖雪峰的git教程实操练习一遍,再利用进行巩固。下文内容是对廖雪峰git教程的实践本文记录了我在学习git过程中的一些常用命令,当我们对git有一个整体而全面的认识之后,我们后面可以通过查文档,或者GPT来完成任务。

2023-10-29 18:39:23 311

原创 论文阅读:Rethinking the Learning Paradigm for Dynamic Facial Expression Recognition【CVPR2023】

​ MIL流水线通常包括四个步骤:实例生成、实例特征提取、实例聚合和分类。​ 在DFER的情况下,所提出的M3DFEL框架遵循该步骤:利用3DCNN从生成的3D-instances中提取特征并学习短期时间关系。DLIAM是用来模拟长期的时间关系,同时动态融合的实例到一个包。为了保持包级和实例级的时间一致性,引入了DMZ(动态归一化)。

2023-10-22 11:39:56 785

原创 MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

提出了一种新的自监督方法MAE-DFER,利用大规模无标签人脸视频数据的自监督预训练来促进DFER的发展 MAE-DFER通过开发高效的LGI-Former作为编码器,并联合外观和时序面部运动掩码自编码器进行建模,改进了VideoMAE。通过这两个核心设计,MAE-DFER在具有相当甚至更好的性能的同时,大大降低了计算成本。 在6个DFER数据集上的大量实验表明,MAE-DFER在显著性上优于之前最好的监督方法

2023-10-15 13:12:35 1353

原创 科研生产力:Zotero

本文介绍了一些zotero的插件的下载以及用法

2023-09-16 14:46:02 650

原创 用户新增预测(Datawhale机器学习AI夏令营第三期)

内容为AI夏令营第三期 - 用户新增预测挑战赛教程的笔记,比赛链接为用户新增预测挑战赛,感觉教程比较适合新入门的小白,对新手很友好。这是我第一次参加机器学习相关的竞赛,记录小白升级打怪过程!第一次修改时间:2023年8月18日,初步提交内容,完成教程了教程中所有的练习题。

2023-08-18 23:22:12 962 1

原创 神经网络结构常见可视化工具汇总及效果演示

本文主要介绍了11个神经网络结构可视化工具和它们的可视化效果展示,包括:- pytorch自带pytorchviz- keras自带graphviz、visualkeras- TensorFlow自带TensorBoard- NN-SVG:全连接、LeNet、AlexNet- PlotNeuralNet:使用Latex编写- Netron:多种格式的网络模型文件可视化- ZETANE:可视化特征图(热力图)- Tensorspace.js:浏览器中使用- GRAPHCORE:类似神经元的炫

2023-03-07 16:30:37 3984

原创 八、图神经网络基础【CS224W】(Datawhale组队学习)

本文主要回顾了一下深度学习的相关知识,先从总体上对图神经网络进行了简要介绍,图表示学习从数据降维发展到图嵌入到图神经网络。图神经网络需要一些谱图论的知识,因此本文又介绍了谱图论的相关知识,包括拉普拉斯矩阵和傅里叶变化等。最后介绍了图神经网络中常见的两种操作:图滤波和图池化。

2023-03-03 00:35:41 833

原创 七、标签传播与节点分类【CS224W】(Datawhale组队学习)

本篇文章介绍了半监督节点分类问题的常见概念和各种求解方法的对比,之后介绍了五种解决半监督节点分类问题的算法,分别是Label Propagation ( Relational Classification)、lterative Classification、Correct & Smooth、Belief Propagation、Masked Lable Prediction,其中前两种属于集体分类,第三种属于后处理,第四种属于消息传递,第五种属于自监督方法。

2023-03-01 00:36:19 907

原创 MAML算法详解(元学习)

本文介绍了基于元学习的算法MAML,MAML目标是训练一组初始化参数,模型通过初始化参数,仅用少量数据就能实现快速收敛的效果。为了达到这一目的,模型需要在不同任务上进行学习来不停修正初始化参数,使其能够适应不同种类的数据,最后对MAML和预训练模型进行了对比。

2023-02-28 01:09:21 2038

原创 六、PageRank算法与代码实战【CS224W】(Datawhale组队学习)

PageRank是1997年谷歌第一代搜索引擎的底层算法。大幅提高了搜索结果的相关率和质量,成为互联网第一个爆款应用,造就了传奇的谷歌公司。PageRank把互联网表示为由网页节点和引用链接构成的有向图,通过链接结构,计算网页节点重要度。来自重要网页节点的引用链接,权重更高。我们可以通过线性方程组、矩阵乘法、特征值和特征向量、随机游走、马尔科夫链,五种角度,理解并求解PageRank值。之后对PageRank的

2023-02-27 01:53:12 1085

原创 五、DeepWalk、Node2Vec论文精读与代码实战【CS224W】(Datawhale组队学习)

本篇文章主要讲解了DeepWalk算法和Node2Vec算法- DeepWalk算法能够通过随机游走序列(邻居信息和社群信息)学习网络的连接结构信息,将节点编码为连续地维的稠密的向量空间,新加入节点时不需要重新训练,只需要输入新节点和新连接关系,再进行增量训练,并且它可以进行并行计算。在代码实战部分,使用维基百科词条数据构建无向图,生成随机游走节点序列,训练Word2Vec模型,通过计算PageRank得到关键词条,并对embedding结果进行降维可视化。- Node2Vec通过调节p、q值,实现有偏

2023-02-25 01:44:00 1049

原创 四、图嵌入表示学习【CS224W】(Datawhale组队学习)

本篇文章讨论了图表示学习,一种可以学习节点和图的嵌入用于下游任务而不需要人工特征工程的方法。采用了编码器-解码器的框架,编码器进行嵌入查找,解码器对嵌入预测得分来计算节点的相似度,讨论了节点相似度方法DeepWalk和Node2vec。

2023-02-20 20:53:15 570

原创 三、NetworkX工具包实战3——特征工程【CS224W】(Datawhale组队学习)

本篇文章主要介绍了NetworkX工具包实战在特征工程上的使用,利用NetworkX工具包对节点的度、节点重要度特征 、社群属性和等算法和拉普拉斯矩阵特征值分解等进行了计算,最后对北京上海地铁站图数据进行了挖掘。

2023-02-20 15:54:27 1905 15

原创 三、NetworkX工具包实战2——可视化【CS224W】(Datawhale组队学习)

本文主要介绍了使用NetworkX自带的可视化函数nx.draw,绘制不同风格的图。设置节点尺寸、节点颜色、节点边缘颜色、节点坐标、连接颜色等,并介绍了有向图可视化的模板和如何自定义节点坐标,最后以【美国128城市交通关系无向图可视化】和【国际象棋对局MultiDiGraph多路图可视化】实战演示了如何利用NetworkX工具包解决实际问题。

2023-02-20 13:44:48 2286 21

原创 三、NetworkX工具包实战1——创建图、节点和连接【CS224W】(Datawhale组队学习)

本篇文章主要介绍了如何通过NetworkX工具包创建图、节点和连接。通过NetworkX自带的函数和API,创建内置的样例图,包括各种有向图、无向图、栅格图、随机图、社交网络。在NetworkX中创建单个节点、创建多个节点、图本身作为节点。在NetworkX中创建连接,设置连接的属性特征。

2023-02-18 01:30:05 1449

原创 二、图的基本表示和特征工程【CS224W】(Datawhale组队学习)

本文介绍图的基本表示包括无向图、有向图、二分图、有权图、邻接矩阵,同时对图的连通性进行了介绍。本文还介绍了传统的图机器学习,传统的图机器学习的关键在于特征工程,图的特征工程主要包括节点、连接和全图三个层面。

2023-02-16 01:18:44 816

原创 一、图机器学习导论【CS224W】(Datawhale组队学习)

本篇博客首先介绍了图的广泛应用场景,引出了图是描述大自然的通用语言。然而现有的机器学习和深度学习方法不能有效利用图信息进行学习,从而引出了图深度学习的基本概念和难点。图深度学习广泛的应用在我们的学习生活中,蕴含了巨大的商业价值和科研价值,同时图深度学习可以和人工智能各方向结合(大模型、多模态、可信计算、NLP、情感计算),促进其它方向的发展。

2023-02-13 23:05:11 983

原创 七、图像分类模型的部署(Datawhale组队学习)

本文主要讲述了ONNX-ONNX Runtime部署流程,首先将训练好的Pytorch模型转ONNX模型,这样我们就可以将ONNX模型在任何安装了ONNX Runtime环境的机器上进行运行,进行单张图片的预测、调用摄像头进行实时画面的预测等。使用ONNX我们可以让模型在不同框架之间进行迁移,方便我们低成本的将模型部署到移动设备中去。

2023-01-29 13:38:20 989 4

原创 六、可解释性分析(Datawhale组队学习)

本文简要的介绍了一下CAM算法、LIME算法和DFF算法,之后实战部分利用torch-cam、pytorch-gradcam、captum、shap、lime工具包对模型可解释性分析,通过可解释性分析我们能够知道哪部分区域对预测结果比较重要,哪部分区域对预测结果产生正向影响,哪部分产生负面影响。通过可解释性分析我们可以在一定程度上找到模型预测出错的原因,例如在lime实战中,预测概率最大的一类是芒果,但是图片中并没有芒果,通过观察可解释性分析结果可以发现颜色对模型预测的干扰比较大,之后我们就可以朝这个方向改

2023-01-28 23:26:03 1805 1

原创 五、在测试集上评估图像分类算法精度(Datawhale组队学习)

本文主要介绍了如何在测试集上评估图像分类算法精度以及图像语义特征的可视化。包括准确率、top-n准确率、召回率、AUC、AP等常见的模型评价指标。对于分类错误的图片我们可以单独展示出来,便于我们找到分类错误的原因并给我们未来算法的改进提供思路。对于图像特征的可视化我们可以采用t-SNE降维和UMAP降维的方法,这两种方法大致思想都是使高维空间中接近的点在低维空间中任然接近。对于通过降维算法我们可以将图片降维至于二维或者三维,这样可以方便我们对其进行可视化展示。

2023-01-27 16:28:16 1911

原创 四、新图片、新视频预测(Datawhale组队学习)

本篇文章主要讲述了如何利用上次[三、利用迁移学习进行模型微调(Datawhale组队学习)](https://blog.youkuaiyun.com/qq_46378251/article/details/128751646?spm=1001.2014.3001.5501)得到的图像分类模型,分别在新的图像文件、新的视频文件和摄像头实时画面上进行预测。!!!注意:如果之前的图像分类模型是在CPU上训练得到的,这里用GPU版的pytorch导入模型的时候可能会出错,大家一定要注意版本的统一。

2023-01-25 15:03:56 1172

原创 三、利用迁移学习进行模型微调(Datawhale组队学习)

本篇文章主要介绍了通过迁移学习微调训练自己的图像分类模型。常见的迁移学习的方式有以下三种:只微调训练模型最后一层(全连接分类层);微调训练所有层;随机初始化模型全部权重,从头训练所有层。不同的迁移学习范式复用的是不同层次的卷积神经网络的特征和权重,我们在选择迁移学习方式的时候主要要考虑我们的数据集和预训练模型所用的数据集之间的分布和数据量大小差异。对训练过程中产生的日志数据我们可以进行可视化,我们可以使用wandb创建自己的可视化项目。

2023-01-24 03:43:14 2573 3

Linux期末复习.xmind

《Linux操作系统实用教程》复习的思维导图

2022-01-16

FashionMNIST.zip

李沐老师在Softmax 回归 + 损失函数 + 图片分类数据集【动手学深度学习v2】课程中用到了FashionMNIST数据集

2022-01-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除