
Image Caption
songyuc
这个作者很懒,什么都没留下…
展开
-
自动驾驶—— Image Caption的学习笔记
3.2 loss函数—— CTC LossCTC Loss是一个易于使用的loss函数;3.2.1 原始CTC存在的问题此图片来自于李宏毅老师的课程视频,原创 2021-06-08 14:17:17 · 225 阅读 · 0 评论 -
数字公式识别的学习笔记
6 随笔6.1 Word Embedding在南溪看来,Word Embedding是一项很好的技术;它将单词用embedding进行表示,从而使得embedding具有了(在距离上的)语义信息;那么Word-Embedding技术如何用于数字公式识别呢?其实这里是使用了一种类似于self-supervised的思想,首先我们假设:我们可以从单词的one-hot编码,映射出一种多维度的特征,这里有点像“转置卷积”中的“补绘”的思想!所以我们的目标就是学习出这样的embedding,这里我们原创 2020-10-07 17:10:53 · 705 阅读 · 0 评论 -
Transformer的学习笔记
1 前言Transformer是一个很厉害的模型呀~2 Self-AttentionNote:这里的WqW^qWq、WkW^kWk和WvW^vWv的权值是不共享的,也就是独立的;我感觉原因可能是因为,不同时刻的序列aia^iai的特征可能不太一样,所以这里没有用相同的kernel来提取特征;(CNN中,所有loc的region都是使用的相同的卷积kernel,这样的特点给CNN带来了平移不变性的优点;于是特征的数量主要由channel的维度来确定,也就是,channel数决定了特征的丰富程原创 2020-10-07 12:14:09 · 446 阅读 · 1 评论 -
OCR——PaddleOCR之文字识别的学习笔记
1 前言在南溪看来,PaddleOCR是现在开源的最厉害的OCR识别库~2 PaddleOCR中目前最强的英文&数字识别模型我们需要知道PaddleOCR中现在针对“英文&数字识别”任务最强的识别模型;我们先来看看PaddleOCR模型库的说明文档可以看到,现在最好的识别模型是这个,3 主干网络的学习...原创 2020-09-24 13:37:32 · 4285 阅读 · 2 评论 -
自动驾驶—— Image Caption的学习笔记(legacy)
1 前言序列映射我们当前准备使用Transformer的结构;2 词表建立的规则我们使用空格作为统一的分隔符;原创 2020-07-20 11:34:13 · 516 阅读 · 0 评论