深度学习
文章平均质量分 94
Taylorandy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
kaleido-BERT原理
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-07-12 23:18:59 · 912 阅读 · 0 评论 -
UNITER多模态预训练模型原理加代码解读
UNITER多模态预训练模型原理1. 数据 过去的5年中,Vision+NLP的研究者所使用的主要数据集如下展示: 本文中所使用到的4种数据集如下图所示,Conceptual Captions和SBU Captions数据集是免费的,但是不是太clean:2. 算法2.1 整体结构 这里采用的是two-stage training pipeline训练流程。在一些大量的,含有噪声但是比较cheap的数据上,我们设计一些预训练任务,但是这些预训练任务需要被小心的design,因为原创 2021-07-12 23:47:27 · 5301 阅读 · 3 评论 -
Transformer最详细的原理加代码解读
Transformer原理1. motivation 为了解决seq2seq的问题,之前一般都是使用RNN模型进行求解。RNN的一大劣势就是无法进行并行化计算,比如要想输出b4b^4b4就必须要先获得a1a^1a1到a4{a^4}a4才行。而接下来就有学者想采把CNN用来取代RNN,每个小三角形都是一个filter,但是问题是如下图所示每个小三角仅能考虑到很少的一部分输入,但是我们可以通过叠多层的CNN,则上层的filter就可以考虑到比较多的语句,如下所示蓝色的filter可以看到b1b^1b1到原创 2021-07-12 23:38:19 · 1748 阅读 · 0 评论 -
BERT原理加代码解读
BERT原理 BERT是google在2018年提出的一种全新的预训练语言模型, BERT的预训练是同时考虑左边和右边上下文的双向表示。将预训练好的BERT表示应用到各个任务时只需要微调最后一层就能达到最佳效果。 主要贡献可以归纳以下三点: 1、 我们证明了预训练双向语言模型对于语言表示的重要性,不向之前的尝试都是单向的语言模型,BERT使用遮盖(masked)语言模型解决双向表示问题。 2、 我们证明了预训练的表示可以取代大量的任务特定的特征工程结构。BERT是第一个基于微调的表示原创 2021-07-12 23:32:54 · 1515 阅读 · 0 评论
分享