- 博客(65)
- 资源 (2)
- 收藏
- 关注
原创 使用飞书群机器人监控服务器GPU使用率
(2) 在服务器后台运行如下代码。注意替换webhook_url。(1) 首先在群聊设置加入机器人,复制webhook_url。目标:如果服务器GPU空置,可以及时推送消息到飞书群。其他类似的监控目标也可以修改代码实现。
2025-01-26 10:55:51
1030
原创 避坑ffmpeg直接获取视频fps不准确
我的任务里,上述代码给的fps是30,但是用总帧数除以总时长是29.91,误差还是比较大的。真是成也GPT,败也GPT ==
2024-11-26 21:13:24
718
原创 deepspeed训练大模型出现nan的情况之初始化问题
最近遇到一个头疼的事情,每次在模型部分加一些新的模块,就出现grad=nan的情况。仔细检查后发现是初始化参数的问题,torch自带的初始化模块(torch.nn.init)不知道为啥不起作用,而且数值非常大,有可能是没有适配bf16?写在2024年11月。
2024-11-05 11:46:50
299
9
原创 MoE模型的关键点总结
另一个是Router Z-loss,旨在限制router输出的logits数值的scale,我看到不少博客表示这样可以减小浮点数精度误差被指数函数进一步放大带来的更大的误差,但我个人认为主要还是为了让softmax后的expert scores分布更加均匀一些(原因也是exp函数的指数爆炸特性,相当于scaling down了logits,或者说调节了温度系数)。这很好理解,小模型本来就容易过拟合到训练数据上,少数几个激活的expert相当于就是小模型了;大模型因为自身参数量大,容量大,所以才泛化性更好。
2024-10-18 11:37:53
357
原创 多个服务器的用户共享同一个用户目录的做法
我有2台服务器,希望共用一个用户目录。现在已经在一台服务器上设定好用户了,如何在另一台服务器创建一个共享用户目录、相同用户名的用户?
2024-06-13 18:12:23
476
原创 Linux多进程下载之aria2c
可能是因为服务器使用了一个未知的证书颁发机构(CA),或者证书本身是无效的。如果你信任这个服务器,你可以使用。请注意,这会使你的连接变得不安全,因为它允许中间人攻击。只有当你完全信任你正在下载的服务器时,才应该使用这个选项。在这个命令中,'-x4’表示你想要使用4个连接来下载文件。你可以根据你的需求调整这个数字。
2024-04-07 13:00:44
756
1
原创 全角符号编码
汉字和平假名的编码值中间的空缺部分为12246-12352,其中12289-12319是常见的全角符号。python中,ord(c)可以获取字符的编码值,chr(idx)可以获取指定编码对应的字符。半角符号和全角符号的编码值对应关系是固定的,全角编码 = 半角编码 + 65248。空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)。
2024-01-25 19:56:47
394
原创 code server安装使用教程
1.1. 下载code-server安装包类似这种文件:code-server-3.10.2-linux-amd64.tar.gz解压:tar -xvf code-server-3.10.2-linux-amd64.tar.gz1.2 (可选)建立软连接1.3 建立运行脚本写入如下内容,PASSWORD自己设置,最后行8445是端口号,需要网络设置。
2024-01-25 19:54:37
1163
原创 请慎用torch.nn.Upsample
计算机视觉算法中的上采用函数,一般都是采用nearest这种简单模式进行,PyTorch也是有相应的模块`nn.Upsample`来支持。但这个模块实在是不太与时俱进,慎用!1. 不支持bf162.导致模型可复现性变差
2023-05-18 11:16:44
1918
1
原创 CTC方法推理阶段对未对齐字符串的快速解码代码
import res = '-h--ee---l--ll--o--'p = re.compile(r"([0-9a-zA-Z])(\1+)")out_s = re.sub('-', '', p.sub(r'\1', s)) # 'hello'
2020-11-18 19:53:40
251
原创 Git常用命令
Git global setupgit config --global user.name "用户名"git config --global user.email "邮箱"git config --global credential.helper store # 设置不用每次push/pull都输入账号密码Create a new repositorygit clone http://gitlab.xxx.com/xxx/abc.gitcd abctouch R...
2020-06-30 20:54:02
145
原创 【论文笔记】自监督场景去遮挡 CVPR2020 oral
该任务就是将物体被遮挡的部分补全。这篇文章的方法贡献主要是2点。1. 考虑使用自监督去做,核心思想是对目标物体已有的map再切一刀,以此作为训练目标。2. 另一个重要的一点是引入正则机制。有遮挡,自然要补全;没有遮挡,就应该不要增大本来的mask。此外,文章做了大量的应用案例,效果很好。具体参考作者的知乎回答。...
2020-04-18 00:14:56
908
原创 Grad-CAM 和 CAM
CAM,即class activation map,类别响应图。grad的意思是梯度。二者都是为了可视化:特征图对于某一类别的响应情况(特征图每一个位置对于指定类别的响应值)。CAM只是Grad-CAM的一种特例:在最后一个特征图之后使用全局平均池化和一个线性层做分类。这种特定场景下,计算最后一层的特征图上的类别相应图。这个在Grad-CAM原文中有严格的证明。虽然这说明Grad-CA...
2020-01-13 23:17:03
2731
原创 python json读写常规操作
import json# Writewith open(file_name, 'w', encoding='utf-8') as f: json.dump(var_to_be_saved, f, ensure_ascii=False) # 最后一个参数主要针对汉字# Readwith open(file_name, 'r', encoding='utf-8') as f:...
2019-11-29 15:08:05
300
原创 pytorch将tensor指定维度的指定数值都移到后面
例如,将矩阵每一行的0都甩到最后面。代码的第一行和最后一行表示输入和想要的输出。x = torch.tensor([[2,3,0,2,1,0,6,],[0,0,3,9,0,1,0]])# [[2, 3, 0, 2, 1, 0, 6],# [0, 0, 3, 9, 0, 1, 0]]x_01 = (x == 0)# [[0, 0, 1, 0, 0, 1, 0],# [1, 1, ...
2019-08-08 17:21:08
2266
转载 itertools
python迭代器工具itertools,用起来很方便!官网说的很详细了:https://docs.python.org/3/library/itertools.html在序列建模准备数据的时候,为了在一个batch里面可以包含不同长度的序列,一般需要对较短序列加padding。常用到itertools.zip_longest。torch.tensor(list(itertool...
2019-07-22 15:18:35
155
原创 使用torch.gather选择tensor某一维度指定的元素
使用torch.gather选择tensor某一维度指定的元素问题简化实现torch.gather用法TIPS问题简化PyTorch中,对于某个二维tensor,要求取出其每一行的指定元素,组成新的tensor。例如,对于A = torch.tensor([[1,2,3],[4,5,6],[7,8,9]])# tensor([[1, 2, 3], [4, 5, 6],...
2019-07-18 16:24:09
13703
原创 pytorch MSELoss计算平均的方法
给定损失函数的输入y,pred,shape均为bxc。若设定loss_fn = torch.nn.MSELoss(reduction='mean'),最终的输出值其实是(y - pred)每个元素数字的平方之和除以(bxc),也就是在batch和特征维度上都取了平均。如果只想在batch上做平均,可以这样写:loss_fn = torch.nn.MSELoss(reduction='...
2019-07-16 13:46:40
7861
原创 BPE提取subword
有一篇机器翻译的文章Neural Machine Translation of Rare Words with Subword Units提到了这个英文分词方法,这里简要介绍BPE。BPE全称Byte Pair Encoding,通过不断迭代分词,每次按照最大出现频率将某一种n-gram子串组合在一起。随着迭代的推进,就像滚雪球一样,将subword 的组成字符们聚在一起。以单词 lovi...
2019-07-14 23:10:50
720
原创 数学证明交叉熵函数的原理
关于交叉熵函数是什么,这里不解释。【本文讨论的问题】:若已知n个已知的真实值为,且现在有相应的n个未知的预测值,且X, Y为定值。问这些未知的预测变量满足什么条件时,可以使得 达到最大?【解答】:利用拉格朗日乘数法求解。构造函数L如下:对所有自变量求偏导,得分别令偏导数等于0,有这就说明,当预测值为真实值得某...
2019-07-07 23:32:25
661
原创 维特比算法
维特比算法是一种动态规划的思想,每一步中,针对每个节点只保留最优的路径。例如某一步有3个节点,到这一步后就只有对应的3条路径。相比于穷举法,复杂度大大降低。操作很简单。具体可以看这篇回答里面的动图。...
2019-07-04 23:10:14
179
原创 python分割字符串为列表
利用了re模块。例子:只去除句子中的空格;保留标点符号,并且与单词分开。In [44]: s = re.split('([,.])', "apple a day, keep dr away.") # 注意第一项参数有()In [45]: sOut[45]: ['apple a day', ',', ' keep dr away', '.', '']In [46]: x = [...
2019-06-23 23:44:59
7239
原创 合成文字图片数据集的注意事项
1. 保证测试集出现的字符在训练集都出现;2. 建议使用lmdb存储,除了图像和label信息,还要记录一些关键数目信息;3. 对汉字要做繁简体字检查,以便正确使用字体或者其他;4. 避免出现gt信息缺失的情况。...
2019-05-31 14:06:36
769
1
原创 中文图片的文本行识别心得
中文相比于英文,有个显著特点就是字符很多。如果不考虑偏旁部首构成,文字的分类数会有几千几万。这种情况下如果从头训练(随机初始化),单个字符识别的训练过程尚且不容易(参考博客,还是可以训练好的),基于attention的encoder-decoder方法就更困难了,因为它还包含一个计算attention的定位过程。我曾尝试从头训练一个基于attention的encoder-decoder方法...
2019-05-13 23:52:51
1059
原创 pip install 使用国内清华镜像源
本文分别从windows和linux两个方面给出方法。1. Windows在'C:\Users\<usename>' 目录下新建目录 'pip',再进入此 'pip' 目录,添加 'pip.ini' 文件,文件内容为:[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple重新打开cmd。Done!...
2019-05-07 10:56:01
7493
1
Scripts for visdom
2018-12-02
模式识别和机器学习(英文版)
2018-10-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人