cxm 17-优快云博客

原创 NLP新闻文本分类学习赛 - Task6 基于Bert的文本分类

基于Bert的文本分类一、基于预训练语言模型Bert的词表示二、Bert代码实现2.1 Bert Pretrain2.2 Bert Finetune三、参考资料一、基于预训练语言模型Bert的词表示基于预训练语言模型的词表示由于可以建模上下文信息，进而解决传统静态词向量不能建模“一词多义”语言现象的问题。最早提出的ELMo基于两个单向LSTM，将从左到右和从右到左两个方向的隐藏层向量表示拼接学习上下文词嵌入。而GPT用Transformer代替LSTM作为编码器，首先进行了语言模型预训练，然后在下游任务

2020-07-31 11:44:05 974

原创 NLP新闻文本分类学习赛 - Task5 使用TextRNN进行文本表示

使用TextRNN进行文本表示一、TextRNN二、代码实现三、参考文献一、TextRNNTextRNN利用RNN（循环神经网络）进行文本特征抽取，由于文本本身是一种序列，而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM，分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示。二、代码实现Datawhale零基础入门NLP赛事 - Task5 基于深度学习的文本分类2-2TextRNN三、参考文献Recurrent Neural Ne

2020-07-31 11:03:39 307

原创 NLP新闻文本分类学习赛 - Task5 使用TextCNN进行文本表示

使用TextCNN进行文本表示一、TextCNN二、代码实现三、参考文献一、TextCNNTextCNN利用CNN（卷积神经网络）进行文本特征抽取，不同大小的卷积核分别抽取n-gram特征，卷积计算出的特征图经过MaxPooling保留最大的特征值，然后将拼接成一个向量作为文本的表示。这里我们基于TextCNN原始论文的设定，分别采用了100个大小为2,3,4的卷积核，最后得到的文本向量大小为100*3=300维。二、代码实现Datawhale零基础入门NLP赛事 - Task5 基于深度学习的

2020-07-31 10:57:38 303

原创 NLP新闻文本分类学习赛 - Task5 使用gensim训练word2vec

文章目录学习目标一、词向量1.1Skip-grams原理和网络结构1.2 Skip-grams训练1.2.1 Word pairs and “phases”1.2.2 对高频词抽样1.2.3 Negative sampling1.3 Hierarchical Softmax1.3.1 霍夫曼树1.3.2 Hierarchical Softmax过程二、使用gensim训练word2vec三、参考文献学习目标学习Word2Vec的使用和基础原理一、词向量本节通过word2vec学习词向量。word2v

2020-07-31 10:35:46 766 2

原创 NLP新闻文本分类学习赛 - Task4 基于fastText的文本分类

Datawhale零基础入门NLP赛事 - Task4 基于深度学习的文本分类1-fastText学习目标:学习FastText的使用和基础原理学会使用验证集进行调参文章目录一、fastText核心思想：1.1 n-gram(1）word-n-gram(2) char-n-gram1.2 模型架构1.3 hierarchical softmax二、 fastText实战2.1 安装fastText2.2 fasttext.supervised() 参数2.3 十折交叉验证2.3.1 用Strat

2020-07-23 22:44:00 656

原创 NLP新闻文本分类学习赛 - Task3 基于机器学习的文本分类

在本章我们将开始使用机器学习模型来解决文本分类。Datawhale零基础入门NLP赛事 - Task3 基于机器学习的文本分类一、目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类二、TF-IDF + RidgeClassifier//TF-IDF + RidgeClassifierimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklea

2020-07-21 17:55:48 280

原创 NLP新闻文本分类学习赛 - Task2 数据读取与数据分析

本章主要内容为数据读取和数据分析，具体使用Pandas库完成数据读取操作，并对赛题数据进行分析构成。本章作业假设字符3750，字符900和字符648是句子的标点符号，请分析赛题每篇新闻平均由多少个句子构成？import pandas as pdfrom collections import Counterimport re//分隔符sep，将每列分割开的字符，设置为\t即可；train_df = pd.read_csv('TRAIN_DATA/train_set.csv', sep='\

2020-07-21 09:38:29 301

原创 NLP新闻文本分类学习赛 - Task1 赛题理解

文章目录赛题理解赛题数据数据标签评测指标四个基本概念 TP FP FN TN召回率Recall精确率 PrecisionF1 scoreMicro-F1和Macro-F1数据读取解题思路参考文献本章将会对新闻文本分类进行赛题讲解，对赛题数据进行说明，并给出解题思路。赛题理解赛题名称：零基础入门NLP之新闻文本分类赛事网址：https://tianchi.aliyun.com/competition/entrance/531810/introduction赛题目标：通过这道赛题可以引导大家走入自然

2020-07-20 10:15:36 461

原创 conda虚拟环境配置旧版pytorch0.4.1

Linux安装pytorch0.4.1修改conda源用conda命令安装安装cuda8.0安装torchvisionpytorch更新到1.0稳定版后，用官网命令安装旧版遇到了两个问题：用pip install .whl安装后，conda list 只有torch 0.4.1, 没有pytorch 0.4.1用conda命令安装，cudatoolkit没有自适应配到，导致torch.c...

2019-07-16 23:06:00 3847

知识空间