lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
【nlp】4.5 迁移学习实践项目(相关概念、中文分类、填空、句子关系、模型微调)
迁移学习(Transfer Learning)是人工智能领域的一种重要方法,尤其在深度学习中发挥着关键作用。它的基本思想是:将在一个任务上学到的知识应用到另一个相关但不同的任务上。这种方法在处理数据量不足或者计算资源有限的情况下特别有用。本文介绍了中文分类、填空、句子关系和模型微调相关实例原创 2023-11-28 13:55:16 · 1060 阅读 · 0 评论 -
【nlp】4.4 Transformer库的使用(管道模式pipline、自动模式auto,具体模型BertModel)
管道(Pipline)方式:高度集成的极简使用方式,只需要几行代码即可实现一个NLP任务。(适合非专业人士)自动模型(AutoMode)方式:可载入并使用BERTology系列模型。(需要学习)具体模型(SpecificModel)方式:在使用时,需要明确指定具体的模型,并按照每个BERTology系列模型中的特定参数进行调用,该方式相对复杂,但具有较高的灵活度。(专业人士)原创 2023-11-27 13:08:34 · 1188 阅读 · 0 评论 -
【nlp】4.2 nlp中标准数据集(GLUE数据集合中的dev.tsv 、test.tsv 、train.tsv)
介绍nlp中的GLUE数据集,以及其中的数据结构样式原创 2023-11-26 15:27:22 · 1424 阅读 · 0 评论 -
【nlp】4.3 nlp中常用的预训练模型(BERT及其变体)
对常用的nlp常用的预训练模型进行介绍原创 2023-11-26 15:26:30 · 1264 阅读 · 0 评论 -
【nlp】4.1 fasttext工具介绍(文本分类、训练词向量、词向量迁移)
作为NLP工程领域常用的工具包, fasttext有两大作用:正如它的名字, 在保持较高精度的情况下, 快速的进行训练和预测是fasttext的最大优势.fasttext优势的原因:补充知识点:层次softmax要比普通softmax要快训练词向量可以使用层次softmax结构,来提升超多类别下的模型性能为什么层次softmax要比普通softmax要快0 霍夫曼树特点 二叉树、带权二叉树1 文章中所有单词都挂在叶子节点上2 每个单词到根节点的路径path唯一(按照霍夫曼树生成方法进行编码)3 出现频率越大原创 2023-11-26 14:56:40 · 1667 阅读 · 0 评论 -
【nlp】3.6 Tansformer模型构建(编码器与解码器模块耦合)
介绍和复现Transformer综合模型,将之前复现的函数进行整合为Encode_Decode,最后借助make_model函数进行调用执行模型原创 2023-11-24 18:52:38 · 908 阅读 · 0 评论 -
【nlp】3.5 Transformer论文复现:3.解码器部分(解码器层)和4.输出部分(线性层、softmax层)
讲解和复现了Transformer架构中的解码层和解码器部分、以及输出部分Liner和Softmax层内容原创 2023-11-24 17:06:19 · 1419 阅读 · 0 评论 -
【nlp】3.4 Transformer论文复现:2. 编码器部分(规范化层、子层连接结构、编码器层)
对Transformer架构中编码器部分的规范化子层、子层连接结构、编码器层级编码器耦合过程进行说明,并进行了代码复现原创 2023-11-24 15:18:45 · 1682 阅读 · 0 评论 -
【nlp】3.3 Transformer论文复现:2. 编码器部分(掩码张量、多头注意力机制、前馈全连接层)
对Transformer架构中的掩码张量、多头注意力机制、前馈全连接层进行内容的讲解已经代码复现原创 2023-11-24 13:24:15 · 1917 阅读 · 0 评论 -
【nlp】3.2 Transformer论文复现:1. 输入部分(文本嵌入层和位置编码器)
对Transformer架构中的输入端中的文本嵌入层和位置编码层进行详细介绍,主要介绍了其作用、代码实现以及实操过程中的注意事项原创 2023-11-23 10:47:54 · 741 阅读 · 0 评论 -
【nlp】3.1 Transformer背景介绍及架构
在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer(也区分base、large、big的规模),其基本上可以看作是工业界的风向标, 市场空间自然不必多说!原创 2023-11-22 15:40:50 · 790 阅读 · 0 评论 -
【nlp】2.8 注意力机制拓展
如果Source是中文句子,Target是英文句子,那么这就是解决机器翻译问题的Encoder-Decoder框架;如果Source是一篇文章,Target是概括性的几句描述语句,那么这是文本摘要的Encoder-Decoder框架;如果Source是一句问句,Target是一句回答,那么这是问答系统或者对话机器人的Encoder-Decoder框架原创 2023-11-22 13:55:22 · 723 阅读 · 0 评论 -
【nlp】2.7 seq2seq英译法实战项目解析
seq2seq模型架构分析:seq2seq模型架构包括三部分,分别是encoder(编码器)、decoder(解码器)、中间语义张量c。其中编码器和解码器的内部实现都使用了GRU模型图中表示的是一个中文到英文的翻译:欢迎 来 北京 → welcome to BeiJing。编码器首先处理中文输入"欢迎 来 北京",通过GRU模型获得每个时间步的输出张量,最后将它们拼接成一个中间语义张量c;接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量, 逐个生成对应的翻译语言。原创 2023-11-21 21:16:10 · 659 阅读 · 0 评论 -
【nlp】2.6 注意力机制Attention
注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制.说明: NLP领域中, 当前的注意力机制大多数应用于seq2seq架构, 即编码器和解码器模型.原创 2023-11-16 18:52:48 · 196 阅读 · 0 评论 -
【nlp】2.5(gpu version)人名分类器实战项目(对比RNN、LSTM、GRU模型)工程管理方式
本文是在【nlp】2.5(cpu version) 人名分类器实战项目(对比RNN、LSTM、GRU模型)的基础上更改gpu设置和增添了代码工程管理方式的应用原创 2023-11-16 17:23:20 · 1245 阅读 · 1 评论 -
【nlp】2.5(cpu version) 人名分类器实战项目(对比RNN、LSTM、GRU模型)
关于人名分类问题:以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等.数据格式说明 每一行第一个单词为人名,第二个单词为国家名。中间用制表符tab分割。原创 2023-11-14 22:02:16 · 1626 阅读 · 0 评论 -
【nlp】2.4 GRU模型
更新门重置门Bi-GRU与Bi-LSTM的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出. 具体参见上小节中的Bi-LSTM.原创 2023-11-14 16:38:13 · 863 阅读 · 0 评论 -
【nlp】2.3 LSTM模型
LSTM(Long Short-Term Memory)也称长短时记忆结构, 它是传统RNN的变体,与经典RNN相比能够有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。原创 2023-11-14 15:02:19 · 576 阅读 · 0 评论 -
【nlp】2.2 传统RNN模型
我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.函数调用后输出结果如下。函数调用输出结果如下。原创 2023-11-14 12:23:49 · 552 阅读 · 0 评论 -
【nlp】2.1 认识RNN模型
RNN(Recurrent Neural Network),,中文称作循环神经网络,它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出。一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产生的结果,能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响。原创 2023-11-14 08:58:34 · 406 阅读 · 0 评论 -
【nlp】1.5 文本数据增强(回译法)
回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。补充:使用这个google_trans_new模块进行翻译的接口存在两个问题。处理完毕后,运行结果如下。调用函数输出结果如下。原创 2023-11-13 20:36:15 · 816 阅读 · 0 评论 -
【nlp】1.4 文本特征处理(n-gram特征、文本长度规范:补齐与截断)
给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.假设给定分词列表: ["是谁", "敲动", "我心"]对应的数值映射列表为: [1, 34, 21]我们可以认为数值映射列表中的每个数字是词汇特征.除此之外, 我们还可以把"是谁"和"敲动"两个词共同出现且相邻也作为一种特征加入到序列列表中,假设1000就代表"是谁"和"敲动"共同出现且相邻。原创 2023-11-13 20:14:47 · 685 阅读 · 0 评论 -
【nlp】1.3 文本数据分析(标签数量分布、句子长度分布、词频统计与关键词词云)
文本数据分析能够有效帮助我们理解数据语料,快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择。标签数量分布句子长度分布词频统计与关键词词云。原创 2023-11-13 19:38:31 · 1032 阅读 · 0 评论 -
【nlp】1文本预处理总括目录(附各章节链接)
文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文不转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节还将有效指导模型超参数的选择,提升模型的评估指标。一般情况,文本语料的数据分析是程序员首先要做的工作。(假设先有语料,不用自己再打标签,明确分类任务,几分类)回译增强:将文本更换语言,然后再变回原语言,比如中文→韩文→英文→中文。在X中,单词长度是20的有多少个, 21有多少。作用:模型超参数的选择、提升模型的评估指标。10分类中,对Y进行分析,看看是否均衡。原创 2023-11-13 15:39:15 · 307 阅读 · 0 评论 -
【nlp】1.2文本张量表示方法(词向量word2seq和词嵌入Word Embedding)
word2vec是一种流行的将词汇表示成向量的无监督训练方法。该过程将构建神经网络模型,将网络参数作为词汇的向星表示它包含CBOW和skipgram两种训练模式CBOW(Continuous bag of words)模式给定一段用于训练的文本语料,再选定某段长度(窗口)作为研究对象,使用上下文词汇预测目标词汇概念:1). 也是一种词向量的表示方法 (把词表示成向量;一句话表示成向量矩阵2). 使用深度学习的方法也就是使用深度学习网络的方法。使用深度学习网络的参数 来表示词向量。原创 2023-11-13 15:31:11 · 1145 阅读 · 0 评论 -
【nlp】1.1文本处理的基本方法
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。原创 2023-11-10 19:10:08 · 475 阅读 · 0 评论 -
【NLP pytorch】基于标注信息从句子中提取命名实体内容
基于标注信息从句子中提取命名实体方法封装,方便后续项目使用原创 2023-08-05 20:15:32 · 531 阅读 · 0 评论 -
【NLP pytorch】基于BiLSTM-CRF模型医疗数据实体识别实战(项目详解)
本文介绍了基于BiLSMT-CRF模型的医疗数据实体识别,具体包含了数据来源、数据加载、数据预处理、BiLSTM模型创建、CRF模型创建、模型训练、基于seqeval.metrics模块的分类评估指标进行模型测试,模型f1-score得分在0.71,模型预测和模型部署原创 2023-08-05 12:53:31 · 1072 阅读 · 0 评论 -
【NLP pytorch】基于BERT_TextCNN新闻文本分类实战(项目详解)
基于清华大学的 THUCNews 新闻文本分类数据集,训练集18w,验证集1w,测试集1w2)10个类别:金融、房产、股票、教育、科学、社会、政治、体育、游戏、娱乐选用的是 TextCNN 这个模型,来完成分类任务。具体涉及数据预处理、BERT模型、Dataset和DataLoader数据、Text_CNN模型定义与精简过程、模型训练、模型测试、模型预测和模型部署原创 2023-08-01 18:25:59 · 1427 阅读 · 0 评论 -
【NLP PyTorch】字符级RNN循环网络模型姓氏对应国家分类(项目详解)
本文的任务主要来源于PyTorch的官方教程,即给定各国人名的数据集,你需要训练出一个RNN,它能够根据输入的人名来判断这个人来自哪个国家(分类任务)。本文重点在于全过程的梳理,具体包含了数据加载、数据预处理、模型创建、模型训练、模型评估、模型预测与模型部署原创 2023-08-01 11:30:10 · 1081 阅读 · 0 评论