
NLP
文章平均质量分 94
樱缘之梦
这个作者很懒,什么都没留下…
展开
-
语音处理入门——语音的声学处理
1、原创 2021-09-24 17:39:45 · 7155 阅读 · 0 评论 -
Transformer模型拆解分析
资源来自:DataWhale学习资料最近看了DataWhale 的Transformer图解,突然对Transformer的结构图有了更加清晰的理解,特此记录。1、大框架Transformer是由6个encoder和6个decoder组成,模型的具体实现是model变量里边,参数有Encoder[编码器]、Decoder[解码器]、Embedding(src_vocab)[输入文本进行词向量化]、Embedding(tgt_vocab)[目标文本进行词向量化],Genera...原创 2021-09-13 14:13:25 · 1494 阅读 · 0 评论 -
NLP——序列标注之命名实体识别
1.概述在NLP任务中,命名实体识别是找到文本中提到的每个命名实体,并标记其类型。2.相关算法3.思路原创 2021-06-16 13:15:30 · 3439 阅读 · 0 评论 -
这些年,NLP常见的预训练模型剖析
“预训练-微调”(pre-training and fine-tune) 已经成为解决NLP任务的一种新的范式。基于预训练语言模型的词表示由于可以建模上下文信息,进而解决传统静态词向量不能建模“一词多义”语言现象的问题。...原创 2021-06-01 15:19:25 · 1409 阅读 · 0 评论 -
深度学习之负荷分解——LSTM(一对多)任务场景
1.任务场景以家庭为例,假设该家庭有m种电器和总负荷的曲线,其中,总负荷为,各个电器的负荷有(m是电器个数,n是n个时刻)。我们需要通过对总负荷曲线进行分解,识别出该负荷有几种电器同时运行实现。之前的博客已经用NILMTK的组合优化和因子隐马尔可夫实现过了,因为效果不是很好,考虑用LSTM实现。2.算法原理RNN是循环神经网络,与CNN不同,循环神经网络可以很好地处理文本数据变长且有序的输入序列。RNN设计的初衷是解决长距离输入之间的依赖,但是在用基于时间距离的反向传播算法(BPTT)时,会原创 2021-05-26 15:10:10 · 4229 阅读 · 6 评论 -
NLP实战-中文新闻文本分类
实现环境:AI studio1、思路文本分类任务步骤通常是文本预处理文本预处理的方法很多,类似于词性分析,句法分析,命名实体识别等,在进行文本分类之前,需要将文本进行结构化,常见的方法有one-hot,n_gram,word2vec等,与英文不同(可以简单用空格和符号进行分词),中文是比较紧密连接的,结构化之前需要对文本进行分词,如jieba分词,此外还需要将分词之后的语料转化为ID序列,然后进行训练。DL分类模型适合文本的dlmodel有RNN,LSTM,GRU等。预测训练完,.原创 2021-05-12 15:27:58 · 3982 阅读 · 2 评论 -
Datawhale-零基础入门NLP-新闻文本分类Task06
之前已经用RNN和CNN进行文本分类,随着NLP的热门,又出现了大热的Attention,Bert,GPT等模型,接下来,就从理论进行相关学习吧。1 学习路径2.Seq2SeqSeq2Seq全称是Sequence to Sequence,称之为序列到序列模型,是RNN的一个变体,常用于机器翻译、语音识别、自动对话等任务。其核心思想是通过深度神经网络将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入到解码输出两个环节构成。编码器和解码器各由一个循环神经网络构成,两个网络是共同训练原创 2020-08-04 18:18:23 · 344 阅读 · 0 评论 -
Datawhale-零基础入门NLP-新闻文本分类Task05
该任务是用Word2Vec进行预处理,然后用TextCNN和TextRNN进行分类。TextCNN是利用卷积神经网络进行文本文类,TextCNN是用循环神经网络进行文本分类。1.Word2Vec文本是一类非结构化数据,文本表示模型有词袋模型(Bag of Words)、主题模型(Topic Model)、词嵌入模型(Word Embedding)。词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向量,Word2Vec是常见的词嵌入模型之一。Word2Vec有两个原创 2020-07-31 18:16:02 · 487 阅读 · 0 评论 -
Datawhale-零基础入门NLP-新闻文本分类Task04
1 FastText 学习路径FastText是 facebook 近期开源的一个词向量计算以及文本分类工具,FastText的学习路径为:具体原理就不作解析了!2 FastText 安装2.1 基于框架的安装需要从github下载源码,然后生成可执行的fasttext文件(1)命令:git clone https://github.com/facebookresearch/fastText.git(2)命令:cd fastText/ and ls (3...原创 2020-07-27 13:21:12 · 349 阅读 · 0 评论 -
Datawhale-零基础入门NLP-新闻文本分类Task03
文本是不定长度的,文本表示成计算的能够运算的数字或向量的方法称为词嵌入(Word Embedding)。词嵌入是将不定长的文本转换成定长的空间中。为了解决将原始文本转成固定长度的特征向量问题,scikit-learn提供了以下方法: 令牌化(tokenizing):对每个可能的词令牌分成字符串并赋予整数形的id,通过空格和标点符号作为令牌分隔符。 统计(counting)每个词令牌在文档中的出现次数。 标准化(normalizing)是减少重要的词令牌的出现次数的权重。 使用传原创 2020-07-24 16:34:02 · 281 阅读 · 0 评论 -
Datawhale-零基础入门NLP-新闻文本分类Task02
Task01里边对赛题进行了分析,接下来进行数据读取与数据分析,通过使用Pandas库完成数据读取和分析操作。1 数据读取由赛题数据格式可知,可通过read_csv读取train_set.csv数据:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#读取全量数据train_df = pd.read_csv('./data/data45216/train_set.csv',sep='\t'...原创 2020-07-22 11:33:10 · 185 阅读 · 0 评论 -
Datawhale-零基础入门NLP-新闻文本分类Task01
参考:https://www.jianshu.com/p/56061b8f463a一个文本分类系统表示为NLP文本分类主要分为两大类:基于传统机器学习的文本分类:TF-IDF+分类算法,Count Vectors+分类算法 基于深度学习的文本分类:FastText文本分类,TextRNN,TextCNN,基于Bert的文本分类1 基于传统机器学习的文本分类传统的特征工程分为文本预处理、特征提取、文本表示三个部分。1.1 文本预处理文本预处理过程是提取文本中的关键词来表示文原创 2020-07-21 22:33:51 · 315 阅读 · 0 评论