
深度学习
筱踏云
什么都不会的nlper
展开
-
GLUE 数据集
1、FLUE数据集GLUE包含九项自然语言理解任务(NLU)数据集,均为英语。数据集TrainTest简介CoLA8.5k1k单句子分类任务,二分类,判断句子是否合法。SST-267k1.8k单句子分类任务,二分类,判断句子情感极性。MRPC3.7k1.7k每个样例是两个句子,判断句子对是否是相同意思,二分类。STSB7k1.4k判断句子对相似性,分数为1~5。QQP364k391k判定句子对是否等效,等效、不等效两种情况,二原创 2020-09-20 13:46:29 · 1025 阅读 · 0 评论 -
深度学习中的Normalization
1、为什么要 Normalization首先,在机器学习中,一般希望输入的数据是独立同分布的,独立即特征之间不相关,同分布即特征服从同一个分布。然后,深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。所以,如果输入数据不服从独立同分布,那么会出现以下几个问题:上层参...原创 2020-07-17 11:03:33 · 525 阅读 · 0 评论 -
LSTM结构
下面这个图是我很久前做的一个ppt,忘记从哪截的图,侵删:原创 2019-12-01 19:35:02 · 183 阅读 · 0 评论 -
Seq2Seq中的Attention
公式这篇博客主要讲基础的 seq2seq 中 attention 机制:输入:X=()X = ()X=()原创 2019-10-29 23:41:45 · 239 阅读 · 0 评论 -
Transformer
前言transformer网上的资料已经非常多了,这里主要是做笔记,仅对自己可见。self-attention先说self-attention,read / writeread onlyread / writeread onlystore the dataclient1SVN serverclient2client3client4...sharedrive...原创 2019-10-19 15:32:40 · 355 阅读 · 0 评论