
NLP
文章平均质量分 62
大创NLP学习
小李小于
这个作者很懒,什么都没留下…
展开
-
Bert模型的学习(理论方面)
一、传统的训练网络:传统的RNN网络:RNN网络不能并行传统的word2vec: 预训练好的向量就永久不变了 二、注意力机制:基本构架图: self-attention:(注意力机制)相关程度: (利用内积得到相关程度)利用softmax得到比例:并且利用Scaled Dot-Product Attention去除了向量维度的影响Attention整体计算流程:三、multi-headed机制:一般来说最多8层全...原创 2022-01-25 19:25:08 · 713 阅读 · 0 评论 -
基于复旦邱锡鹏老师作业一:(不全)
每日一语:正确的判断来自于经验,而经验来自于错误的判断一、基础知识:损失函数: 0 1 损失函数: 平方损失函数://平方损失函数一般不适用于分类问题 交叉熵损失函数:(负对数似然函数) 一般用于 分类问题 Hinge损失函数 二分类: 问题的类别标签 ???? 只有两种取值,通常可 以设为 {+1, −1} 或 {0, 1}.在二分类问题中,常用正例(Positive Sample)和负例 (Negative Sample)来分别表示属于类别+..原创 2022-01-19 20:05:54 · 1321 阅读 · 0 评论 -
聊天机器人的实现
BOT的认识:QA BOT: 问答机器人,有明确的目标,能够准确地返回结果 通过信息检索的方法完成 TASK BOT: 任务机器人,通过机器人去完成具体的事情 语音转文本 意图识别、文本分类 槽位填充, CHAT BOT: 闲聊机器人,没有明确的目标 聊天机器人项目介绍:...原创 2022-01-17 17:35:39 · 635 阅读 · 1 评论 -
序列化容器
一、nn.Sequential nn.Sequential是一个有序的容器,其中传入的是构造器类(各种用来处理input的类),最终input会被Sequential的构造器类执行例如:import torch.nn as nnlayer=nn.Sequential( nn.Linear(in_features=input_dim,out_features=n_hidden_1) nn.ReLU(True) nn.Linear..原创 2022-01-14 15:41:12 · 353 阅读 · 1 评论 -
梯度消失、梯度爆炸
一:梯度消失梯度爆炸:梯度消失: 当权重初始过小或使用易饱和的神经元的时候(signmoid,tanh)例如:signmoid在y=0、1的时候梯度接近于0,而无法更新参数时神经网络在反向传播的时候也会呈现指数倍的缩小,产生消失现象 梯度爆炸: 当初始权重过大时候,梯度神经网络在反向传播的时候也会呈现指数倍的放大,产生爆炸效果 二:解决梯度消失和梯度爆炸的经验:替换易训练神经元 Signmoid--->Leaky ReLu tanh---->ReLu 改...原创 2022-01-14 15:06:46 · 246 阅读 · 1 评论 -
使用LSTM来完成文本情感分类最终篇
LSTM和GRU的注意点:第一次调用之前,需要初始化隐藏状态,如果不初始化,默认创建全为0的隐藏状态 往往使用LSTM or GRU的输出最后一维的结果,来代表LSTM、GRU对文本处理的结果,其形状为[batch_size,num_directions*hidden_size] 并不是所有模型都会使用最后一维的结果 如果实例化LSTM的过程中,batch_size=False,则output[-1] or output[-1,:,: ]可以获取最后一维 如果实例化LSTM的过程中,bat.原创 2022-01-14 13:28:51 · 1476 阅读 · 2 评论 -
LSTM的学习和一个使用实例
循环神经网络:RNN:具有短期记忆的网络结构,把之前的输出作为下一个的输入 RNN类型: one-to-one:图像分类 one-to many:图像转文字 many-to-one:文本分类 异步的many-to-many:文本翻译 同步的many-to-many:视屏分类 LSTM: long short-term memory 遗忘门:通过sigmoid来决定哪些信息被遗忘 输入门:决定哪些信息会被输入 sigmoid决定输入多少比例信息 tanh决...原创 2022-01-13 15:08:49 · 1216 阅读 · 2 评论 -
NLP之文本情感分析的完善
pickle.dump(obj, file,[protocol=None]) pickle模块可以将任意的对象序列化成二进制的字符串写入到文件中。 还可以从文件中读取并且转为写入时候类型。 存储:pickle.dump(obj, file,[protocol=None]) 序列化对象,将对象obj保存到文件file中去 这个报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position原创 2022-01-12 20:00:23 · 339 阅读 · 3 评论 -
文本序列化基于文本情感分类的实现
一、思路:对所有句子进行分词 词语存入词典,根据次数对词语进行过滤,并统计次数 实现文本转数字序列的方法 实现数字序列转文本的方法 dict.get(key, default=None) key -- 字典中要查找的键。 default -- 如果指定的键不存在时,返回该默认值。 返回指定键的值,如果键不在字典中返回默认值 None 或者指定的默认值。 sorted(iterable, key=None, reverse=Fa原创 2022-01-11 21:15:38 · 469 阅读 · 1 评论 -
循环神经网络的学习/RNN及文本情感分类的数据及的准备
一、第一部分tokenization:分词,每个词都是一个token 分词方法: 转化为单个字 切分词语 N-gram:准备词语特征的方法 文本的向量化 one-hot word embedding 浮点型的稠密矩阵来表示token 向量中的每一个值都是一个超参数,其初始值是随机生成的,之后会在训练的过程中学习而获得 api:torch.nn.Embedding(词典数量,embedding维度) 形状的变换:[bath_size,seq原创 2022-01-11 14:00:17 · 169 阅读 · 0 评论 -
NLP之文本张量的表示方法
一:基本内容什么是文本张量?将一段文本是用张量进行表示,其中一般将词汇表示为向量,再由各个词向量按顺序组成矩阵形成文本表示文本张量的作用:将文本表示成张量形式,能够使语言文本可以作为计算机处理程序的输入,进行接下来一系列的解析工作文本张量的表示方法:one-hot编码 Word2vec Word Embedding二:one-hot编码 one-hot编码又称为独热编码,将每个词表示成具有n各元素的向量,这个词向量中只有一个元素是1,其他元素为0,不同词汇元素为0.原创 2022-01-08 16:39:49 · 820 阅读 · 1 评论 -
NLP之文本处理的基本方法
一:jieba的使用精确模式的分词 试图将句子最精确的分开,适合文本分析 import jiebacontent="我不可能学会NLP"print(jieba.lcut(content,cut_all=False))#精确模式print(jieba.lcut(content,cut_all=True))#全模式print(jieba.lcut_for_search(content))#搜索引擎模式全模式分词 把句子中的所有可以成词的词语都扫描出来,速度快但不能...原创 2022-01-06 16:59:37 · 955 阅读 · 0 评论 -
python中os模块的常用的操作
方法 说明 os.path.abspath(path) 返回绝对路径 os.path.basename(path) 返回文件名 os.path.commonprefix(list) 返回list(多个路径)中,所有path共有的最长的路径 os.path.dirname(path) 返回文件路径 os.path.exists(path) 如果路径 path 存在,返回 True;如果路径 path 不存在,返回 Fals...原创 2022-01-09 19:43:35 · 100 阅读 · 1 评论 -
深度学习的开始
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言由于大创项目与深度学习和NPL有关所以就是最近在学NPL会不断更新这一方面的东西刚开始学都不是很明白大家有错误可以向我指正提示:以下是本篇文章正文内容,下面案例可供参考一、pytorch的安装安装教程我找了很长时间这个是可行的而且非常详细建议大家仔细观看二、pytorch的入门操作1.p原创 2022-01-02 14:03:57 · 464 阅读 · 0 评论 -
pytorch中自带数据集的 写出手写数字的识别模型
一:介绍下pytorch自带数据集pytorch自带数据集:torchvision:图像 torchvision.datasets torchtext:文本 torchtext.datastes 举例说明:mnist手写数字的加载实例import torchimport torchvisionfrom torchvision.datasets import MNISTminst=MNIST(root="./data",train=True,download=True).原创 2022-01-09 10:58:17 · 1210 阅读 · 0 评论