- 博客(112)
- 收藏
- 关注

原创 Markdown 语法
基础知识: Markdown 通过简单标记语法,使普通文本内容具有一定格式。但它本身不支持修改字体、字号与颜色等功能的。 优快云-markdown 编辑器是其衍生版本,支持基于 PageDown ( Stack Overflow)所使用的编辑器的扩展功能(如表格、脚注、内嵌HTML、内嵌 LaTeX 等等)。一.标题1-2 级标题//用3个或多个(=)和(-)表示一级和二级标题我展示的是一级标题=== 我展示的是二级标题---1-6 级标题//用(#)号可表示 1-6 级.
2021-01-29 11:34:09
5743
原创 【无标题】
将self-attn中一半head的分组位移半个group的长度,即一半head使用pattern1,一半head使用pattern2。6. LoRA本身不能减少计算复杂度,不能解决长文本下attenttion layer层的计算量成平方增长的问题。5. LoRA在扩展文本长度时会导致perplexity升高,即使提高rank也不能解决这个问题。一种高效的微调方法,可以在有限的计算成本内扩展预训练大型语言模型的上下文长度。LoRA方法存在问题:效率和有效性。
2023-10-28 18:40:19
217
原创 windows git
提示:如果 C:\Users\Administrator.ssh文件夹下面之前创建过公钥私钥,把里面的文件清空。出错:too many arguments。公钥内容到github上ssh keys中。测试ssh key设置是否成功?因为:“-”输入格式不正确缘故。将仓库的文件提交到暂存区。
2022-12-14 22:24:31
363
原创 \u, \x,0x区别
【注】 Python2 的unicode 函数在 Python3 中被命名为 str。在 Python3 中使用 ·str 来代替 Python2 中的 unicode。\x 代表 UTF-8 编码的数据,可以转换为 Unicode 编码,得到对应的汉字,\u 代表 unicode 编码,是一个字符。\x 后边跟两位,表示单字节编码。
2022-12-12 19:33:05
1024
原创 NLP相关技术
由于训练集有限时,不能覆盖所有情况,若编码标签不够soft,模型对标签过分相信,从而导致模型过拟合,缺乏泛化能力。label smoothing 将原来的 one-hot 表示,在每一维上添加一个随机噪音。当采用 one-hot 编码方式,仅有y为1的一维参与loss计算,其他的都忽略了。对 label 编码有两种方式: hard label, soft label。,其中p为真实label分布,q为预测label分布。为目标函数,模型预测的 label 概率分布。其中,e∈[0,1],为了方便计算,
2022-12-10 14:13:47
803
原创 Linux 环境变量
一般是指在操作系统中用来指定操作系统运行环境的一些参数。比如临时文件夹位置和系统文件夹的位置等。echo $PATH # 查看系统的环境变量。
2022-10-29 12:46:11
723
原创 PyTorch 中的 ModuleList 和 Sequential
将nn.Moule的子类加到这个list里,同时会自动注册到整个网络上,包括module的parameters。已经实现了内部的forward()函数,而且里面的模块必须是按照顺序进行排列的。
2022-10-23 12:25:12
580
原创 word embedding
首先,我们要将词转换为分布式表示的词嵌入,先对词进行one-hot编码,表示为每个词 Vdim维向量,与W(Vdim,N)相乘后就是选择W矩阵的第i行,即将词表示为N维向量(通常N远小于V,常用为300远小于词表不重复词个个数),即将长度为Vdim的ont-hot编码稀疏word vectors转换为稠密的长度为N的word embedding表示。Pij表示词j出现在中心词i环境中的概率,这一概率称为词 i和词j 的共现概率。这种将高维度的词表示转换为低维度的词表示的方法,我们称之为。
2022-10-22 16:18:26
765
原创 Python3 数据类型
注:实际上,除空值(例如 ()、[]、{}、“”、数字 0 和值 None)外,没有多少值会被评估为 False。Python 推导式是一种独特的数据处理方式,可以从一个数据序列构建另一个新的数据序列的结构体。Number 数字类型。dict() 字典类型。函数判断数值的类型。tuple 元组类型。set() 集合类型。关键字key不可修改。
2022-10-07 02:46:51
1393
原创 Relational Triplet Extraction(RTE)
从文本中抽取三元组:(主体,关系,客体)即(subject,relation,object)。主要包括两个任务:1. 实体识别。2. 关系分类。
2022-09-30 09:43:45
454
原创 NLP基础
变换前是直线的,变换后依然是直线.直线比例保持不变.变换前是原点,变换后依然是原点。如:旋转、推移旋转实现:若有A=[xy],旋转矩阵Trotate=[cosθsinθ−sinθcosθ],通过矩阵乘法TrotateA=A’,得到旋转θ后的向量A’,平面上图形的每个点都如此,就形成旋转后的图形。
2022-09-28 09:50:47
391
原创 Seq2Seq 模型详解
Seq2Seq 是一种重要的 RNN 模型,也称为 Encoder-Decoder 模型,可以理解为一种 N×M的模型。
2022-09-25 10:26:40
331
原创 损失函数(loss function)
损失函数(Loss function)或代价函数(Cost function)的一般表示为L(y,f(x)),用以衡量真实值y和预测值f(x)之间不一致的程度。
2022-09-22 22:09:38
703
原创 BLUE 评价指标
BLEU:用于机器翻译任务的评价。常见的有BLUE-1、BLUE-2、BLUE-3、BLUE-4四种,其中的数字表示连续单词的个数。candidate {the cat sat, cat sat on, sat on the, on the mat} 中有1个在 reference 中,即 blue3=1/4=0.25。candidate {the cat, cat sat, sat on, on the, the mat} 中有3个在 reference 中,即 blue2=3/5=0.6。
2022-09-18 16:33:09
4487
原创 Pytorch中with torch.no_grad()或@torch.no_grad() 用法
【代码】Pytorch中with torch.no_grad()或@torch.no_grad() 用法。
2022-09-16 08:12:03
782
原创 ML or DL
降维,防止过度拟合 mean-pooling / max-pooling / Stochastic-pooling / global average pooling。提取图像特征 padding+stride+kernelSize+channel)1. local receptive fields(局部感受野)* 参数dilation:扩张卷积(也叫空洞卷积)2. shared weights(共享权值)输入层、隐藏层(前面输入对后面的影响)、输出层。:每一步 Wx,Wh,b相同。
2022-09-15 14:43:47
334
原创 python中NAN与INF
data = np.arange(24).reshape(4, 6).astype(float) # np.NAN, np.INF为浮点型。data_new = np.delete(data, location[0], axis=0) # 删除NAN所在行。print(data[~np.isnan(data)]) # 筛选出非 np.NAN 注意变为一维。print(data[np.isnan(data)]) # 筛选np.NAN。
2022-09-13 19:27:45
732
原创 vim配置
【注意】Esc键失灵,是因为与Siri冲突,需要在活动监视器中强制关闭Siri后,即可恢复。~/.vimrc或/usr/share/vim/vimrc。可以查看 vimrc 配置文件是哪一个。
2022-09-06 20:23:05
159
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人