
NLP
FunYoung0407
这个作者很懒,什么都没留下…
展开
-
零基础入门NLP - 新闻文本分类(六、基于深度学习的文本分类3 - bert)
BERT微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。预训练BERT以及相关代码下载地址:链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asct转载 2020-08-04 21:49:05 · 328 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(五、基于深度学习的文本分类2 - 3 - TextRNN)
TextRNNTextRNN利用RNN(循环神经网络)进行文本特征抽取,由于文本本身是一种序列,而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM,分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15转载 2020-08-04 21:45:46 · 346 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(五、基于深度学习的文本分类2 - 2 - TextCNN)
TextCNN利用CNN(卷积神经网络)进行文本特征抽取,不同大小的卷积核分别抽取n-gram特征,卷积计算出的特征图经过MaxPooling保留最大的特征值,然后将拼接成一个向量作为文本的表示。基于TextCNN原始论文的设定,分别采用了100个大小为2,3,4的卷积核,最后得到的文本向量大小为100*3=300维。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=loggi原创 2020-07-31 10:20:43 · 435 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(五、基于深度学习的文本分类2 - 1 - word2vec)
import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')# set seed seed = 666random.seed(seed)np.random.seed(seed)torch.cuda.manual_seed(seed)torch.man原创 2020-07-31 10:16:32 · 214 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(四、基于深度学习的文本分类fastText)
基于深度学习的文本分类一、上节回顾:1.几种文本表示方式2.几种机器学习分类方法二、fastText三、基于FastText的文本分类PS:如何使用验证集调参Embeding 和 word2vec的关系本章小结延申一、上节回顾:1.几种文本表示方式One-hotBag of WordsN-gramTF-IDF缺点:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。2.几种机器学习分类方法LRSVMXGBLGB聚类(未练习)二、fas原创 2020-07-27 21:36:30 · 356 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(三、基于机器学习的文本分类)
基于机器学习的文本分类一、文本表示方法tf-idf二、用机器学习做文本分类三、作业1、调参2、换模型一、文本表示方法one-hotcount vectorsn-gramtf-idf(重点)tf-idfTF-IDF 分数由两部分组成:第一部分是词语频率(Term Frequency),第二部分是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。TF(t)= 该词语在当前文档出现的次数 / 当前文原创 2020-07-25 22:24:19 · 346 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(二、数据理解和特征分析)
数据理解和特征分析一、句子长度分析二、字符分布情况三、类别分布情况四、结论五、 延伸在第一篇赛题理解中已经进行了数据读取,接下来直接进行数据分析。目前能想到的问题有三个:文本长度是多少?字符分布情况?类别分布情况?接下来针对三个问题进行分析。一、句子长度分析%pylab inlinetrain_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['text_len'].d原创 2020-07-22 22:31:27 · 508 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类(一、赛题理解)
赛题理解一 赛题数据二 数据标签三 评测标准四 赛题分析天池数据竞赛–零基础入门NLP - 新闻文本分类一 赛题数据14个类别,训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。labeltext657 44 66 56 2 3 3 37 5 41 9 57 44 47 45 33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44 45 33 25 28 47 22 52原创 2020-07-21 21:30:35 · 319 阅读 · 0 评论