
nlp
文章平均质量分 79
NLP学习记录
Anastasia
痴心妄想是强大的驱动力。
展开
-
复现Incorporating Hierarchy into Text Encoder遇到的问题
先总结一下:就是看好自己的pytorch和cuda的版本,对准版本选择合适的包进行安装,安装的时候要写明包的版本和相应的网址,不然会自动匹配最新版本,下载错还好操作,要是顺带修改别的包的版本,可能就要重新再来一遍了。重新来了一次,python=3.9 ,torch==1.12.0 ,cuda==11.6(这个环境是gl大大配的)如果如果不行的话,尝试换用更高版本的python,我们刚开始使用的是3.7的后来变成了3.9的。百度了很多,发现是版本不匹配,然后就开始了漫长的版本匹配历程。下载完就可以运行了~原创 2022-10-06 22:09:47 · 617 阅读 · 0 评论 -
论文阅读:CIL: Contrastive Instance Learning Framework for Distantly SupervisedRelation Extraction
🌳方法:将初始的MIL框架视为 bag encoder,它为不同的关系三元组提供了相对准确的表示,然后开发对比实例学习(CIL),以一种无监督的方式利用每个实例。🌳目标:CIL的目标是共享相同三元组的实例在语义空间中应该很接近,而具有不同关系三元组的实例的表示应该很远。原创 2023-05-26 17:13:22 · 407 阅读 · 0 评论 -
线代的基本知识
仿射函数(Affine Function)是线性函数的推广形式,它由一个线性变换和一个平移组成。仿射函数在几何上表示为一个线性变换后加上一个常数偏移。原创 2025-03-13 15:24:03 · 251 阅读 · 0 评论 -
小样本学习综述
小样本学习综述📕[1]潘雪玲,李国和,郑艺峰. 面向深度网络的小样本学习综述 [J]. 计算机应用研究, 2023, 40 (10): 2881-2888+2895. DOI:10.19734/j.issn.1001-3695.2023.02.0074.主要是该论文的一些摘要。背景:然而,标注数据的收集与获取需要消耗大量的人力与时间,并且在某些领域(例如医学、军事和金融等)中,由于隐私安全等问题无法获得充足的样本。研究人员提出小样本学习(few-shotlearning)。原创 2025-03-21 15:57:45 · 651 阅读 · 0 评论 -
神经网络的基本知识
它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。:全连接层将前一层的所有输出与当前层的每个神经元连接,能够整合前一层的局部或全局特征,生成新的特征表示。Softmax 通过指数运算放大高分值的类别,抑制低分值的类别,使得高分值的类别概率更接近 1,低分值的类别概率更接近 0。RNN不同于前向神经网络,它的层内、层与层之间的信息可以双向传递,更高效地存储信息,通常用于处理信息序列的任务。原创 2025-03-15 22:50:06 · 1143 阅读 · 0 评论 -
概率论的基本知识
逆概率还不懂,改天再想想。原创 2025-03-13 16:04:57 · 502 阅读 · 0 评论 -
大模型后训练+微调
首先回顾大模型的训练流程。大模型的训练流程包括预训练和后训练。预训练是使用大规模的训练语料训练模型,主要是让模型获得先验知识,能够完成基本的补全任务(理解:让模型读书,让它学会一些基本预测。比如:第一个字是“中” 学会预测第二个词是“国”)后训练是经过指令微调和偏好优化,让模型的输出具有某些特定格式,能够满足人类偏好。什么是指令微调?指令微调就是用一些人工标注的数据去训练模型,让模型会做题,会根据问题输出正确的答案。原创 2025-03-15 18:36:06 · 718 阅读 · 0 评论 -
Transformer的基本知识点
(本系列是课程笔记)背景:1.循环模型RNN、LSTM是当时序列模型的主流,但是循环模型需要序列化计算,难以并行,计算效率较差,并且难以捕捉长距离依赖关系。2.注意力机制,可以捕捉长距离依赖,聚焦关键信息,并行度较高。【总结思路:循环模型摒弃,seq2seq比较好保留,注意力机制也保留】(1)去掉了循环神经网络结构(效率低,无法并行训练)(2)遵循seq2seq结构,encoder+decoder(3)大量重复使用attention(attention is all you need)编码器。原创 2025-03-07 22:17:34 · 930 阅读 · 0 评论 -
常见的模型结构
感觉,Q是当前关注的词的向量,K是这个句子里每个词的向量,Q和K分别计算一下相似度,就知道 【我要查的词】 和这个句子里的哪个词相似度最高了,这几个词的注意力得分最高,那么在这个句子里 它们和我要查找的东西最有关系,最后在加权求和,就能得到这个句子调整过注意力后,最终要输出的东西。⭐因为K 和V 是相同的,所以可以理解为:我先用V的分身去和Q计算一下相似度,我就知道应该关注V的哪一部分了,然后再用V的注意力权重 加权求和 ,最后得到output。Q是查询向量,K是关键向量,V代表数值向量。原创 2025-03-06 16:47:56 · 640 阅读 · 0 评论 -
大模型的基础知识
embedding(本系列是课程笔记)NLP中如何对文本进行预处理(将文本转换为训练数据)?词元化:分词,变成token 最后再嵌入转换变成训练数据三个基本概念:token(词元)、tokenization(词元化/分词)、词表。Subword Tokenization: Byte Pair Encoding (BPE,字节对编码)核心思路:不断将最频繁出现的一对词元合并成一个词元。刚开始每个字符为一个词元,然后找一直成对出现的将他们合并成新的词元,一直循环。原创 2025-03-06 12:26:24 · 1194 阅读 · 0 评论 -
大模型概述
在某些情况下,可能需要根据特定需求自定义损失函数。4. 优化器选择优化器用于更新模型参数以最小化损失函数。原创 2025-03-06 10:51:49 · 716 阅读 · 0 评论 -
大模型简介
大语言模型:拿到一个很复杂的数据集,然后用一个算法去压缩它,得到一个相对较小的模型,然后针对任务再用一点点数据集来调整。原创 2025-03-05 23:05:23 · 279 阅读 · 0 评论