- 博客(39)
- 资源 (10)
- 收藏
- 关注

原创 Bert 结构理论 笔记 Bert理解
Bert理解 Attention Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value...
2020-04-09 14:09:03
3032
原创 XLNet 与bert 对比
XLNet 是基于 BERT 的优缺点,提出的一种泛化自回归预训练方法。--Tow-steam self-attentionBert的优点:可以学习上下文信息 long-term depandencyBert的缺点:缺乏生成能力,本质上是DAV 测试数据有【mask】 针对【mask】预测时候没有考虑相关性自回归(Auto Regressive)语言模型优点:具备生成能力、相关性、无监督、严格的数学表达 缺点:单向;离得近未必有关系 GPT和GPT-2都 AR ...
2020-11-05 14:02:16
993
原创 GPU进程查看/停止
nvidia-smiGPU进程查看GPU进程停止kill -9 PID #PID是nvidia-smi语句查询出来的PID号码
2020-08-12 15:10:47
1423
原创 情感分类工具集合
paddlehub安装直接通过pip install即可:pip install paddlepaddle(这里用的是CPU版本)pip install paddlehub关于如何使用百度这个中文情感分析工具,最直接的方法还是follow官方demo脚本:PaddleHub/demo/senta/senta_demo.py在iPython中大致如下调用: In [1]: import paddlehub as hub ...
2020-05-13 21:39:05
990
1
原创 信息瓶颈理论-笔记
什么是信息瓶颈理论信息瓶颈(英语:information bottleneck)理论是信源压缩的率失真理论的一种拓展。通俗讲:由于没有先验知识,于是只好都记住,但是可以消除数据本身的冗余(如huffman编码)。这个是最传统的数据压缩,如果允许压缩时失真,对应的是率失真理论:给定失真下可获得的最低压缩码率,即在失真和压缩码率之间权衡。如果有先验知识,比如数据是带标签的,那消除数据本身的...
2020-04-19 15:33:38
6137
2
原创 多模态bert-基于双流的bert 笔记 ViLBert、LXMERT、IMAGEBERT
ViLBert paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 基于双流的 ViLBERT,在一开始并未直接对语言信息和图片信息进行融合,而是先各自经过 Transformer 的编码器进行编码。分流设计是基于这样一个假设,...
2020-04-10 12:15:39
4630
原创 A Survey on Contextual Embedding 论文笔记
论文地址:https://arxiv.org/abs/2003.07278基于上下文词Embedding 的论文,目前在arxiv 上2020新的paper上下文嵌入,如ELMo和BERT,超越了Word2Vec这样的全局词表示,在自然语言处理任务中取得了突破性的性能。上下文编码根据上下文为每个单词分配一个表示,从而捕获不同上下文中单词的使用情况以及跨语言传输的编码知识。在这项调查中,我们...
2020-04-10 10:49:15
601
原创 深度学习 性能提升技巧--指数加权平均(EMA)Pytorch实现
什么是EMA(ExponentialMovingAverage)在采用 SGD 或者其他的一些优化算法 (Adam, Momentum) 训练神经网络时,通常会使用一个叫 ExponentialMovingAverage (EMA) 的方法,中文名叫指数滑动平均。 它的意义在于利用滑动平均的参数来提高模型在测试数据上的健壮性。滑动平均(exponential moving average),...
2020-04-07 10:27:57
5970
原创 Kernel Method (核化法)核函数笔记【1】
什么是核函数在元空间X里,需要一个非线性椭圆分割数据,而通过空间映射到H(高纬度),就可以找到一个简单的平面(线性Function)把数据分割开。通过元空间数据点的内集,找到元空间到高纬空间的映射函数,而这个映射函数---即为Kernel 函数Kernel 函数作用--1.映射高纬,2.找到线性分割物理意义另外空间的距离和角度内积矩阵一个简单的...
2020-04-06 16:13:47
2494
原创 Bi-Directional Attention Flow for Machine Comprehension 代码+论文
ICLR2017 双向attention 机制的QA模型Code论文的工作:对上下文(Content)和查询(Query)之间的交互建模。BlDAF,是一个多阶段的层次化模型,在不同的粒度级别上表示上下文,并使用双向注意流机制获得一个查询aware的上下文表示。 输入:文章和问题pair, 输出答案的Start-End 位置作为预测结果 模型结构图如下1.C...
2020-04-06 11:42:28
437
1
原创 没有GPU怎么办?Google colab大法好! 使用方法
1.新建init_run.ipynb2.新建代码片段!apt-get install -y -qq software-properties-common python-software-properties module-init-tools!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/nu...
2020-04-06 10:50:36
1402
原创 transformer model 学习笔记
1. transformer 架构Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。左半部分是 encoder 右半部分是 decoder。Encoder: 由N=6个相同的layers组成, 每一层包含两个sub-layers. 第一个sub-layer 就是多头注意力层(multi-head attention layer)然...
2019-08-29 15:55:34
1844
1
原创 Graph Neural Networks 图神经网络
图 (Graph)在讨论 GNN 之前,让我们先了解一下什么是图 (Graph)。在计算机科学中,图是由两个部件组成的一种数据结构:顶点 (vertices) 和边 (edges)。一个图 G 可以用它包含的顶点 V 和边 E 的集合来描述。边可以是有向的或无向的,这取决于顶点之间是否存在方向依赖关系图神经网络一种直接在图结构上运行的神经网络。GNN 的一个典型应用是节点分类。本质...
2019-08-20 22:41:16
375
原创 Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model-论文阅读笔记
文章ACL2019 - Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence ModelCodehttps://github.com/lancopku/Graph-to-seq-comment-generationData论文研究内容根据新闻title和文章自动评论Comments...
2019-08-20 17:01:50
975
原创 历史最全GAN网络及其各种变体整理(附论文及代码实现)
原创: lqfarmer 深度学习与NLP 2018-02-26文章主要整理了GAN网络及其各种变体模型,并给出了模型的论文出处及代码实现,结合最原始的论文和代码实现,可以加深对模型原理的理解。目录GANAuxiliary Classifier GANBidirectional GANB...
2019-07-02 14:40:24
9639
原创 Pytorch报错修改
报错IndexError: invalid index of a 0-dim tensor. Use tensor.item() to convert a 0-dim tensor to a Python number解决:train_loss+=loss.data[0]修改为train_loss+= loss.item()
2019-06-30 15:37:20
360
2
原创 Win10 安裝pytorch 的坑
安装过程1. 安装anaconda最新版,手动设置环境变量官方下载地址:https://repo.continuum.io/archive/,下载相应版本的Anaconda,这里使用Anaconda3-4.2.0-Windows-x86_64.exe版本安装参考教程https://blog.youkuaiyun.com/u012318074/article/details/770752092.创...
2019-06-12 15:05:25
1091
原创 Pytorch 入门之--简单循环网络RNN
循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。RNN不仅能够处理序列输入,也能够得到序列输出,这里的序列指的是向量的序列。循环神经网络的参数学习可以通过随时间反向传播算法[Werbos, 1990] 来学习。随时间反向传播算法即按照时间的逆序将错误信息一步步地往前传递。当输入序列比较长时,会存在梯度爆炸和消失问题[Bengio et al., 1994, ...
2019-06-11 17:06:14
1567
原创 Pytorch 入门之-- CNN
流程:输入层——>第一层卷积层——>第一层池化层——>第二层卷积层——>第二层池化层——>三层全连通层——>输出层详解:输入是一个2维的图片,大小32X32,经过第一层卷积层,得到了C1层的6个28X28的特征映射图,6个说明了第一层卷积层用了6个卷积核。这里卷积后大小变成28X28,这是因为卷积有两种,一种有填充,卷积后与原图像大小一样,另一种不带填充...
2019-06-11 16:39:42
442
原创 Pytorch 入门之-- 逻辑回归 Logistic_Regression
__author__ = 'SherlockLiao'import torchfrom torch import nn, optimimport torch.nn.functional as Ffrom torch.autograd import Variablefrom torch.utils.data import DataLoaderfrom torchvision i...
2019-06-10 14:23:50
1351
原创 Pytorch 入门之--线性回归 Linear_Regression Pytorch 实现
__author__ = 'SherlockLiao'import torchfrom torch import nn, optimfrom torch.autograd import Variableimport numpy as npimport matplotlib.pyplot as pltx_train = np.array([[3.3], [4.4], [5.5]...
2019-06-10 14:20:50
2479
原创 小样本学习--笔记整理
0- What is Few-shot Learning?one-shot learning产生的动机大家都比较了解。现在在互联网,我们主要用large-scale方法处理数据,但真实情况下,大部分类别我们没有数据积累,large-scale方法不完全适用。所以我们希望在学习了一定类别的大量数据后,对于新的类别,我们只需要少量的样本就能快速学习。目前考虑的解决方法主要有两个:第一个是人...
2019-05-30 09:37:55
3714
4
原创 latex 处理表格/复杂表格
安利一款在线LaTeX图表编辑器点击打开链接在线LaTeX公式编辑器点击打开链接在线LaTeX写作网站overleafhttps://www.overleaf.com/通常画表格需要使用到\multicolumn, \multirow, \hline, \cline四种指令 其中要使用\multirow,必须在前头先行加入\usepackage...
2017-11-13 19:27:06
3783
原创 免费数据集整理
Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。Common crawl :建立并维护一个开放的网络,向所有人开放。EDRM File Formats D
2017-09-13 13:50:06
4552
原创 SCI 写作总结
举例说明:写出专业和优秀的引言(SCI论文)https://zhuanlan.zhihu.com/p/25896268摘要http://www.toutiao.com/i6377073270981657089/?group_id=6379402255023784193&group_flags=0SCI论文通常采用结构化的摘要,其基本组成部分是:
2017-06-09 21:42:20
406
原创 Reuters-21578 数据集处理
具体处理方法如下:处理后的语料下载地址点击打开链接from time import strptimeimport csvimport numpyarticle_components = ['DATE', 'PLACES', 'DATELINE', 'TOPICS', 'PEOPLE', 'ORGS', 'EXCHANGES','COMPANIES', 'TITLE', '
2017-05-23 19:24:47
4705
原创 DictWriter 输出CVS空一行
使用DictWriter 输出时候总是会空一行。解决办法:要通过binary模式去打开,即带b的,比如wb,ab+等将原来的with open('csv_test.csv', 'w') as csvfile:改为def save_data(data): with open('csv_test.csv', 'wb') as csvfile: fieldnames =
2017-05-23 19:22:45
661
原创 Nonnegative Matrix Factorizations for Clustering(矩阵分解聚类)
Nonnegative Matrix Factorizations for Clustering, Haesun Park, Georgia Institute of Technologyhttps://www.youtube.com/watch?v=BnS625hLJNU
2017-05-22 21:06:28
1260
原创 机器学习清单
数学模型Dirichlet Process以及Hierarchical Dirichlet ProcessNN(Neural Network神经网络):ANN(Artificial Neural Network 人工神经网络),BP(Error BackPropagation 误差反向传播)RNN、CNN、LSTM、GRU、Attention对抗
2017-05-19 19:29:35
400
原创 Learning Similarity Functions for Topic Detection in Online Reputation Monitoring
一篇将话题探测看做是学习一个相似度方程的论文1.论文通过从标注好的数据中学习一个pairwise tweet 相似度函数2.应用一个聚类算法在相似度函数上,实验表明,1.Twitter内容可以用来改进主题检测过程仅使用内容信号;2.在主题检测聚类过程中,学习相似函数进行有监督学习是一种灵活的方法。方法:2.1Modelin
2017-05-18 18:55:11
346
原创 heatmap example
对于这样的heatmap图代码如下import matplotlib.pyplot as pltimport pandas as pdimport numpy as npnba = pd.read_csv("ppg2008.csv", index_col=0)# Normalize data columnsnba_norm = (nba - nba.m
2017-05-17 10:27:38
1987
原创 Kaggle 实战深度学习系列资料
学习这门课程的方法和建议:多看几遍视频,建议每周花 10 小时;用好 wiki 和 notebook;遇到问题先自己试着解决,善于运用 forum 查找答案和提问。回顾上一节的内容,介绍稀疏编码。(P2)稀疏编码的推理。(P3-P6)ISTA算法解释。(P7 - P9)用于稀疏编码推理的坐标下降(P10)https://m
2017-05-12 16:12:26
1895
原创 新博客开启
原来的博客忘了账号。哎。手机号换的太频繁,导致无法找回密码了。换到这个博客。关注机器学习、自然语言处理、深度学习记录与成长。争取每周整理一次。2017年5月计划整理三篇博客1.事件的演化分析survey2.非负矩阵分解3.解读一篇论文
2017-05-12 14:56:07
323
nlp-tutorial.zip
2020-04-16
GCN参考文献.zip
2019-08-20
dl_graphs_gsp18.pdf
2019-08-20
Pytorch 实现文本分类
2019-06-11
metalearning-slides.pdf
2019-06-11
Ranklib.jar
2018-03-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人