- 博客(15)
- 收藏
- 关注
原创 spacy 包的安装
可以直接下载tar.gz 包, 然后 pip install path/XXX.tar.gz。1. 首先要注意spacy的版本和下载的。
2024-11-25 17:00:20
292
原创 llama-factory 代码阅读
pt: 是自回归的任务{"text":content} 这样的文本即可 需要自己的数据进行领域知识的注入, 继续预训练和从零开始预训练在本质上是没有区别的,只不过一个是随机初始化参数 一个不是随机初始化参数。sft 是怎么区分不同的微调方法(full, freeze, lora) 以及具体是freeze哪些参数 freeze哪些参数是在adapter 中进行指定的。在loader文件的 load_model() 这个函数中有这样一行代码,指定了模型的哪些参数是可以训练的呢。
2024-07-04 16:37:58
758
1
原创 Llama Factory 笔记
============ 以上是 2024.05.29 的 最新 LLaMa Factory 版本 =====================可以看到 train.py 就是用到了 llamafactory.train.tuner ,所以进一步看一下 llamafactory 文件的目录结构。======================= 以上 2024/05/27 ========================(可能需要修改 gradio 下面一个包的权限,创建一个公共的端口就可以)
2024-06-07 11:38:17
1735
1
原创 python 相对导入
如果 main 和 moudle1 并列就会报错:ImportError: attempted relative import with no known parent package。意思就是你必须把用到 相对导入 的整个包(在yanshi 这个包里面用到了)都导入进来,以便于解释器能知道是哪一个包。如果在这个包下使用 ,python是不能知道当下在那个包里面的。yanshi 文件夹 和 main.py 文件夹是并列的。
2024-05-30 16:00:29
279
原创 ChatGLM 不同代数之间的模型结构区别
1. SelfAttention之后的前馈网络有不同。ChatGLM用GELU(Gaussian Error Linear Unit)做激活;ChatGLM用Swish-1做激活。ChatGLM2与ChatGLM3模型架构是完全一致的,ChatGLM与后继者结构不同。可见ChatGLM3相对于ChatGLM2没有模型架构上的改进。2. 采用的Norm层是不知样的 ChatGLM: LayerNorm ChatGLM2: RMSNorm。
2024-04-18 14:23:40
683
1
原创 torch nn.Embedding 参数
m:代表的是词表中词的数量,一般是一个比较大的数字,词表如果是5000就m=5000,用vocabulary_size表述似乎更合适。n: hidden_size,词嵌入维度,就是词在向量化之后用多少维的向量进行表示。
2023-12-15 10:05:34
137
原创 安装apex包错误
在github下载 apex-master 包,进入这个文件夹,shift+鼠标右键 打开powershell 输入:python setup.py install 即可解决。卸载原有的torch下载新的torch。
2023-09-17 10:35:32
218
1
原创 从RNN到LSTM(3D图解) 循环神经网络,长短时记忆网络.形象易懂u
在介绍循环神经网络之前首先来看全连接的神经网络循环神经网络相当于将多个全连接神经网络,在时间上进行连接将上述图像旋转90度对上图片进行简化得到其中 hi是隐状态,Xi是输入向量,当前时刻的输出取决于上一时刻的隐状态以及当前时刻的输入。
2023-08-07 19:53:45
380
原创 图论 最小生成树算法 Kruskal‘s Algorithm (克鲁斯卡尔算法) Prim‘s Algrorithm(普利姆算法)原理以及python实现
保姆级教程最小生成树算法中比较经典的算法有两个(1) Kruskal's Algorithm (克鲁斯卡尔算法) (2) Prim's Algrorithm(普利姆算法)以及两种算法的python实现
2022-12-07 20:27:59
2107
cuda code 供大家参考,视频在b站 https://space.bilibili.com/411927260?spm-id-from=333.1007.0.0
2025-02-26
ELMo, GPT等经典模型的介绍与对比_张小猪的家的博客-优快云博客_自然语言处理经典模型.mhtml
2022-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人