
competition
一阵星星雨
这个作者很懒,什么都没留下…
展开
-
NLP入门之新闻文本分类竞赛——BERT
一、Transformer模型整体框架 二、Encoder层 1、首先,self-attention会计算出三个新的向量,在论文中,向量的维度是512维,我们把这三个向量分别称为Query:要去查询的、Key:等着被查的、Value:实际的特征信息,这三个向量是用embedding向量与一个矩阵相乘得到的结果,这个矩阵是随机初始化的,维度为(64,512)注意第二个维度需要和embedding的维度一样,其值在BP的过程中会一直进行更新,得到的这三个向量的维度是64低于embedding维度的。 2、计原创 2020-08-04 17:40:13 · 1082 阅读 · 0 评论 -
NLP入门之新闻文本分类竞赛——文本分类模型
一、Word2Vec word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此, word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为: **Skip-grams (SG):**预测上下文; **Continuous Bag of Words (CBOW):**给定上下文来预原创 2020-07-31 18:04:41 · 1795 阅读 · 0 评论 -
NLP入门之新闻文本分类竞赛——FastText
1、FastText简介: fastText 文本分类算法是有Facebook AI Research 提出的一种简单的模型。通过Embeddding层将单词映射到稠密空间,然后将句子中的所有单词在Embeddding空间进行平均,进而完成分类操作。实验表明一般情况下,FastText 算法能获得和深度模型相同的精度,但是计算时间却要远远小于深度学习模型。fastText 可以作为一个文本分类的 baseline 模型。 2、FastText优点 fastText是一个快速文本分类算法,与基于神经网络的分类原创 2020-07-27 20:18:15 · 656 阅读 · 0 评论 -
NLP入门之新闻文本分类竞赛——task3
NLP入门之新闻文本分类竞赛——task3 一 文本数字化——向量空间模型 1.什么是One-Hot编码? One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。 #### One-Hot表示方法示例如下 """ 句⼦1:我 爱 北 京 天原创 2020-07-25 18:55:38 · 253 阅读 · 0 评论 -
NLP入门之新闻文本分类竞赛task2
NLP入门之新闻文本分类竞赛——task2 一 数据读取 train_df = pd.read_csv('../dataset/train_set.csv', sep='\t', nrows=10000) # nrows设置显示获取数据数目,数目较大,这里选择10000,以下统计均为在10000条数据的情况下。 二 句⼦⻓度分析 train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' '))) print(train_d原创 2020-07-22 20:01:36 · 231 阅读 · 0 评论