- 博客(37)
- 收藏
- 关注
原创 为何PRM 和 MCTS在大语言模型中的推理效果不如蒸馏?
为何PRM 和 MCTS在大语言模型中的推理效果不如蒸馏?到底应该选择蒸馏还是强化学习
2025-03-02 17:46:12
275
原创 【Voxceleb2-AVSpeech】视听说话人数据集云盘下载
近期,由于项目工作需要,我利用超神经平台所提供的种子下载了其所提供的AVSpeech数据集以及Voxceleb2-dev的数据集。
2024-10-19 12:35:13
408
1
原创 【PyTorch】分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1)
分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1)学习率相关,模型稳定性
2024-09-02 11:26:11
9643
原创 【OpenCV】基于opencv的视频间隔抽帧脚本
1. 通过指定frame_interval来确定帧间隔;2. 使用了joblib来加快处理速度。
2024-05-29 09:39:39
464
原创 【Anaconda/miniconda】conda虚拟环境打包与重新安装
【代码】【Anaconda/miniconda】conda虚拟环境打包与重新安装。
2024-05-23 15:44:32
1450
原创 【Ubuntu20.04+gcc-9.4.0】Openface在linux下的详细环境配置(2024.4月)
openface在ubuntu20.04下的详细配置教程
2024-04-24 22:22:28
2265
8
原创 【nohup后台挂起的一种替代方式】TMUX命令使用技巧
因为在使用常用的nohup命令搭配torchrun的时候会出现一些因nohup而产生的bug,我们可以尝试使用tmux来代替nohup命令。
2024-01-11 11:55:09
1413
原创 【PyTorch】深度可分离融合方法的定义与实现
深度可分离融合是一种将特征在通道维度和空间维度上进行融合的方法。在下面的代码示例中,将展示如何使用PyTorch实现深度可分离融合。在这个示例中,我们对输入的特征在通道维度上进行加权相加,然后将通道维度融合后的特征与空间维度上的特征进行拼接。
2023-08-14 20:26:33
328
原创 【PyTorch】由于nn.sequential()引起的forward()takes 1 positional argument but 2 were given问题
nn.Sequential本质上是新定义了一个网络,这个网络里面有天然存在的输入输出继承关系。我们可以通过nn.Sequential的源码看到,其自带的forward() 函数不支持传递多个参数。经过查看我们所构建的网络的源码,发现该模型里面有子模块DWCov,forward里面需要传入多个参数,故此不能使用nn.Sequential,所以会报错。
2023-07-20 16:57:03
462
原创 多模态学习中四种常用的跨模态特征融合方法定义与PyTorch实现
本文共介绍四种方法,分别是SumFusion、ConcatFusion、FiLM以及GatedFusion。
2023-06-30 19:57:53
4610
1
原创 多模态机器学习中的技术挑战
单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表征是指通过利用多模态之间的互补性,消除模态间的冗余性,从而学习到更好的特征表示。协同结构并不是寻求融合而是在建模多种模态数据之间的相关性,它将多个(通常是两个)模态映射到协作空间,网络的主要优化目标为这种特定的协作关系(通常为相似性,即最小化cosine距离等度量)。检索的方法有单模态检索与跨模态检索两种方法,其中跨模态检索是在另一个模态集合中,直接检索相对应的结果,其性能通常优于单模态检索。
2023-04-24 17:18:26
482
原创 神经网络中发生过拟合的原因与相关的解决方法
过拟合即为模型对训练集样本学习的“过好”,没有尽可能学习出适用于所有潜在样本的“普遍规律”,从而导致在出现新样本时不能够做出正确的判断。
2023-03-13 11:22:33
1533
原创 【CVPR2018 3D ResNet】3D ResNet网络结构详解
3D ResNet系列网络由日本国家工业科学技术研究院的Kensho Hara等人提出。接下来,我将对3D ResNet系列网络做出详细的网络结构解释,欢迎大家补充与提问。我的github链接主页为。
2023-03-12 16:06:21
4698
2
原创 【Anaconda&Miniconda】如何较为优雅地实现两种conda源的切换
原先实验室所使用的conda环境均为Anaconda,然而最近一位同学可能因为工作需要而将conda源切换Miniconda,这导致我们的base环境现在为miniconda3,即为对原先的Anaconda3进行了覆盖。一种可能的最终解决方案为修改.bashrc中的conda相关内容,其中.bashrc使用命令ls -a查看。此时,我们成功进入环境,pip list中显示的为我们的packages列表。
2023-03-12 15:54:03
4842
原创 【视觉注意力机制】SE、CBAM、ECA三种可插拔注意力模块结构实现与详解
本文对于在计算机视觉任务中常用的三种注意力机制进行了代码实现以及结构的详解。
2022-08-16 15:30:40
3944
原创 【CVPR2022 ConvNeXt网络结构详解】 A ConvNet for the 2020s
CVPR 2022 FAIR ConvNext主体网络结构代码详解,并且提供多个模型版本以满足不同应用场景的使用。
2022-07-09 21:48:35
957
原创 【Latex简历模板】OverLeaf平台筛选出的部分中英文简历模板
OverLeaf筛选中的部分中英文简历模板1.Suman Navaratnarajah's Résumé (Electronic Engineer) - Overleaf, Online LaTeX EditorIntern CVCreated based on the Modern CV templatehttps://www.overleaf.com/articles/suman-navaratnarajahs-resume-electronic-engineer/txgcyphkbmgf2..
2022-05-01 14:38:36
21144
原创 I3D网络主体代码详解
I3D是DeepMind发表于CVPR2017上的一个工作,对于视频理解领域的发展起到了不可磨灭的作用,目前仍作为视频理解的基线网络而被大家广泛使用。在文中,作者进行的为视频动作识别这个任务,但是这个网络并不局限于此。网络是提取特征的手段,而进行不同的任务相当于是在进行不同的特征空间映射,我们改变不同的标签即可进行不同的任务,比如说视频情绪识别、微表情识别等等。我们广泛采用微调的形式来进行此类任务,一般会取得不错的效果,在这里分享下我对于I3D主体网络的一些任务,因为时间原因进行的比较仓促,难免
2022-04-22 20:12:21
4766
4
原创 BERT主体网络代码详解
BERT(Bidirectional Encoder Representations from Transformers) 是Google AI Language由2019年发表的工作,其在某种意义上开创了NLP领域的新纪元。其采用了Transformer中的encoder架构进行工作,主要做的是MLM以及next sentence predict两个任务,其在大量的无标号的数据上进行预训练,之后进行fine-tune(微调)到相应的子任务数据集。与之相对应的是openAI的GPT系列,GPT系列使用的
2022-03-07 17:05:12
1244
原创 Transformer整体结构代码详解
我对于Transformer结构的pytorch版本进行了代码的梳理以及部分解析,Transformer在自然语言处理以及计算机视觉领域均大放异彩,极大地促进了语言以及视觉(ViT,Swin-T)这两大最为常见的信号的统一处理。由于时间的原因可能存在部分地方解析的并不到位或者有不准确的地方,希望大家能够多多提出宝贵的意见。特别说明:1.代码中的add&norm与原paper以及tensor2tensor library中的实现并不相同,原作者经过大量的实验发现,将LayerNorm放在add
2022-03-07 11:50:41
3981
原创 Swin-Transformer通用视觉骨干网络主体结构代码解释
Swin-Transformer由MSRA视觉计算组的team于2021年发表的工作,在多个视觉任务以及多个数据集上均取得了十分优秀的结果。在这里,我贴出我对于Swin-Transformer主体结构的一些代码的解释和tensor的shape的改变,由于时间的原因,可能会出现许多纰漏,希望大家多多指教paper:https://arxiv.org/pdf/2111.09883v1.pdfcode:GitHub - microsoft/Swin-Transformer: This is an offi
2022-02-25 10:01:08
5472
原创 CLIP(Contrastive Language-Image Pretraining)主体网络代码详解
CLIP是OpenAI于2021年发表的工作,其采用无监督学习中的对比学习的训练方法,使用了规模巨大的数据集(4亿个图片文本对)来进行训练,其在多个数据集上均得到了让人欣喜的结果,有效地证实了NLP与CV结合所具备的巨大的潜力,并基于此产生了许多有趣的工作。在这里分享一下我对于CLIP主体网络代码的理解,可能会存在诸多纰漏,请大家多多指教。paper:http://proceedings.mlr.press/v139/radford21a/radford21a.pdfcode:https://git
2022-02-21 21:23:13
11786
4
原创 Resnet50残差网络代码详解
Resnet50是Resnet残差网络系列的代表网络,由Kaiming于2016年提出,发表于CVPR论文地址:CVPR 2016 Open Access Repository参考代码:https://github.com/bubbliiiing/classification-pytorch/tree/main/netsimport torchimport torch.nn as nn#--------------------------------## 从torch官方可以下载resn
2022-02-20 17:46:13
15870
1
原创 DilatedEncoder(2021年CVPR-YOLOF)代码详解
在这里分享一下我对于DilatedEncoder模块的代码解释,DilatedEncoder为2021年CVPR paper You Only Look One-Level Feature中所提出的一个模块,其主要作用在于扩大感受野,作者的本意在于通过该模块来降低因为只使用backbone最深层的特征而造成的感受野的缺失的问题。paper:CVPR 2021 Open Access Repositorycode:https://github.com/megvii-model/YOLOF
2022-02-19 16:33:33
2917
1
原创 VisualTransformer(ViT)视觉任务骨干网络
在这里分享一下我对于ViT骨干网络的代码理解,ViT paper发表于2021年,掀起了transformer结构在视觉任务中的应用潮流。
2022-02-08 15:21:30
3553
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人