Deep Learning
安琪已经 了
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
学习torchtext
pytorch-Field 源码:text/torchtext/data/field.py原创 2020-06-14 16:32:52 · 220 阅读 · 0 评论 -
2020.5.11 python 元类metaclass
参考资料:1.https://www.cnblogs.com/Simon-xm/p/4034416.html2.https://www.cnblogs.com/suguangti/p/10896196.html原创 2020-05-11 13:13:53 · 205 阅读 · 0 评论 -
DATAWHALE-动手学深度学习PyTorch skip gram -- 训练数据的形式+负采样实践trick
对Skip gram模型一直都只是知道思想,就是由中心词预测窗口内的背景词,但是从来没有动手实现过。这次有机会从头开始实现,发现了许多实践上的问题。重点一:训练样本的形式一开始非常纠结的一个问题是:每个训练样本的形式是什么样的?例如,{w1, w2, w3, w4, w5},以w3为中心词,window_size为2,得到context为{w1,w2,w4,w5}。那么此时的训练样本到底是i...原创 2020-02-24 21:23:14 · 309 阅读 · 0 评论 -
DATAWHALE-动手学深度学习PyTorch 笔记记录2 attention mask
【Attention中mask pad的weight的做法】在attention中,对attention score进行softmax时,需要考虑到query与pad计算得到的score应该忽略。我们在处理时可以先正常地用高维tensor形式将所有score计算出来,然后根据key的句长将pad所在位置的weight进行mask掉。下面的代码实现了给定二维tensor X,根据X_len将X中...原创 2020-02-18 16:43:29 · 1085 阅读 · 0 评论 -
Datawhale动手学深度学习 -- 笔记
1.数据展示的只是feature的其中一维和label之间的关系~可以用下面的代码展示二维的feature和label之间的关系2.我认为这里的代码实现的并不是sgd方法,而是mbgd。sgd是每次随机选择一个样本点来更新梯度,代码中实现的是每次用batch_size中所有的数据来更新梯度。3.训练部分的代码,sgd优化部分给的代码是sgd([w,d], lr, batch_size...原创 2020-02-14 18:29:53 · 248 阅读 · 0 评论 -
lstm+attention 用于NER
论文参考:https://academic.oup.com/bioinformatics/article/34/8/1381/4657076Ling Luo, Zhihao Yang, Pei Yang, Yin Zhang, Lei Wang, Hongfei Lin, Jian Wang. An Attention-based BiLSTM-CRF Approach to Document-...原创 2019-07-25 11:18:07 · 3294 阅读 · 0 评论
分享