
炼丹记录
文章平均质量分 93
记录一些炼丹内容、AI、NLP、ML、DL……
Charon_HN
地摊炼丹大师、科研农民工、乡野程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
浅析原型学习(Prototype Learning)及代码实现|Prototypical Verbalizer for Prompt-based Few-shot Tuning
看了一些博客的内容而本次是基于和这两篇论文来讨论的。接下来将从代码和论文本身的角度来阐述。原创 2024-11-26 20:31:23 · 3875 阅读 · 0 评论 -
线性代数空间理解
学习线性代数已经很久,但是在使用过程中仍然还是不明所以,比如不知道特征向量和特征值的含义、矩阵的相乘是什么意思、如何理解矩阵的秩……。随着遇到的次数越来越多,因此我决定需要对线性代数的本质做一次深刻的探讨了。本次主要是参考了和其他若干博客来对此展开笔记的记录。需要说明的是,这里的是记录线性代数的本质,因此关于如何计算的方法或者内容则相对较少。原创 2024-11-25 16:04:51 · 807 阅读 · 0 评论 -
BCE Loss和CE Loss求导对比
交叉熵损失函数(CrossEntropyLoss)作为分类问题常见的损失函数,自己并为对其具体的细节展开理解。同时二元交叉熵损失函数(BCELoss)是交叉熵损失函数的特例,因此同样需要对二元交叉熵损失函数作出进一步的理解。此时就可以看出,BCE其实是考虑了标签为0的信息情况(虽然CE Loss使用了softmax,但是我还是感觉不如BCE Loss更能直观考虑标签为0的信息)。的分类能力,自然其他类别的预测得分就会下降,因此就不必担心假阴性的问题。的导数为(也就是sigmoid函数的导数)原创 2024-11-25 16:03:16 · 1004 阅读 · 0 评论 -
浅析GPT2中的autoregressive和BERT的autoencoding源码实现
经常使用BERT来做研究,因此对Encoder的架构较为熟悉,但是从来没有了解过GPT这样的Decoder架构,尤其对自回归的形式不知道源码是如何实现的。为了方便对比和讨论,接来下所探讨的源码都是基于HuggingFace这个框架的。原创 2023-06-19 17:01:39 · 1273 阅读 · 0 评论 -
past_key_values在P-TuningV2中的巧用
目前HuggingFace发布了关于微调LLMs的方法包——此外也列出了该包对不同的任务中,不同方法和模型的支持情况(我只列出了关于NLP的,还有的):但是还没有P-Tuning v2:的方法,因此我就看源码是怎么处理的。在研究和阅读其他人blog期间,发现有些人对P-Tuning描述不准确。因此需要注意甄别(主要是P-Tuning和Prompt-Tuning的方法提出时间就差了一个月,并且在方法上有一定的相似性,都是在Embedding中使用了continuous prompt)原创 2023-06-19 16:58:51 · 1781 阅读 · 3 评论 -
初探 transformer
Transformer就是一种seq2seq模型。Begin是用于判断输入的开始的,这样可以便于定位。接下来我们来看输出的结果是什么:根据不同的语言,输出的结果就是一个字点集向量(如果是中文,我们可以输出2000个常用词;如果是英文,那么输出的结果既可以是26个英文字母,也可以是常见的词汇;因此要因情况而定)。原创 2023-06-11 15:59:09 · 1352 阅读 · 0 评论 -
初探BERT&Pre-train&Self-supervise
好了,言归正传,BERT的出现真的是在NLP领域掀起了一阵不小的轰动,从BERT文章的Abstract部分就可以看出,BERT是结合了GPT和ELMo两个模型的框架特点——是一个深层次的以Transformer为Backbone的双向架构。这样的设计的方法可以在预训练之后的BERT模型之上添加一个额外的输出层便可以实现各种下游任务(其实这个地方就是微调,跟GPT一样,只需要改上层结构就可以了)。原创 2023-06-11 15:52:31 · 1315 阅读 · 0 评论 -
HuggingFace——Accelerate的使用
HuggingFace----Accelerate的使用原创 2022-10-31 15:24:42 · 15342 阅读 · 8 评论 -
HuggingFace——Trainer的简单使用
HuggingFace——Trainer的简单使用原创 2022-10-30 16:24:24 · 7780 阅读 · 4 评论 -
PyTorch 单机多GPU 训练方法与原理整理
这里整理一些PyTorch单机多核训练的方法和简单原理。原创 2022-10-30 15:17:26 · 6357 阅读 · 1 评论 -
Hugging Face——MLM预训练掩码语言模型方法
Hugging Face--MLM预训练掩码语言模型方法原创 2022-10-29 21:43:55 · 4260 阅读 · 2 评论 -
Keras之模型初始化问题np.random.seed & tf.random.set_seed
np.random.seed(42)tf.random.set_seed(42)这两行代码真是让我着迷了一个晚上。最近在上手机器学习的东西,然后就需要书写一写tensorflow的代码。毕竟第一次用tensorflow,也不太明白,也是一直在看文档,但是是照着样例来做的。然后就照常搭建网络(根据Keras的文档)import pandas as pdfrom sklearn.datasets import fetch_california_housingimport numpy as np原创 2021-10-08 00:28:10 · 3512 阅读 · 2 评论 -
HuggingFace——Tokenizer的简单记录
HuggingFace——Tokenizer的简单记录原创 2022-10-29 20:23:47 · 4193 阅读 · 0 评论