自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 『PyTorch』tensor.detach()和tensor.data的区别以及就地操作

本文对.detach()和.data的区别进行了总结,并介绍了就地操作,以及为什么就地操作会使得.data成为一个不安全的方法,而.detach()不会。

2023-02-08 11:45:22 1232 1

原创 『Batch Normalization』Batch Normalization一文吃透

本文较为详尽地介绍了Batch Normalization所解决的问题及其原理,建议不了解BN的小伙伴们阅读一下。

2022-05-31 14:02:00 2164 4

原创 『参数初始化』开局一个神经网络,初始值全靠随机

一文介绍参数初始化的各种讲究以及常用参数初始化方法,以及其在PyTorch中的应用。

2022-04-10 18:30:30 1987

原创 『Transformer/BERT』Transformer和BERT的位置编码

Transformer和BERT的位置编码为什么要对位置进行编码?Position Embedding in TransformerPosition Embedding in BERT两者之间的区别如何延拓BERT的位置编码?参考为什么要对位置进行编码?Attention提取特征的时候,可以获取全局每个词对之间的关系,但是并没有显式保留时序信息,或者说位置信息。就算打乱序列中token的顺序,最后所得到的Attention结果也不会变,这会丢失语言中的时序信息,因此需要额外对位置进行编码以引入时序信息

2022-04-08 20:57:44 6276

原创 『Transformer』为什么1*1卷积可以替代全连接层?

在Transformer中,作者在论文中提了一句,可以用1*1卷积代替全连接,那么为什么1*1卷积操作可以等价于全连接操作呢?本文就是为了解决这一疑惑而诞生的。

2022-04-02 18:08:55 6134 1

原创 『The Book of Why』导言:思维胜于数据

在这个大数据、深度学习所主导的强人工智能时代,以数据为中心的观念深入人心,仿佛只要有充足的数据便足以解决所有问题。目前自然语言处理领域愈发巨大的预训练模型,便是这种观念的一种具象化。爆炸式增长的参数量,超大规模的语料,然而 数据真的是万能的吗?数据可以告诉我们服药的病人比不服药的病人康复得更快,但是却不能告诉我们为什么会这样。或许,服药的人选择吃这种药是因为他们支付得起,即使不服用这种药,照样能恢复得这么快。

2022-01-04 21:03:19 639

原创 『论文笔记』Introspective Distillation for Robust Question Answering

Introspective Distillation for Robust Question Answering一句话总结作者希望模型可以同时在ID和OOD场景下获得良好的表现,通过对专门捕捉ID和OOD偏置的两位老师模型进行知识融合(内省)并蒸馏出一个学生模型来完成这种平衡。导论Motivation:作者先是点出QA领域普遍存在利用spurious correlation的现象(即Bias现象),比如VQA利用问题与答案之间的linguistic correlation,extracti

2021-12-14 12:29:54 492 2

原创 『论文笔记』On the Value of Out-of-Distribution Testing: An Example of Goodhart‘s Law

本文点出了目前领域在使用VQA-CP评估时的三个主要问题,并用随机预测做实验打脸一众方法,提倡众人反思并合理利用VQA-CP进行评估。

2021-12-08 19:05:33 217

原创 『论文笔记』In Defense of Grid Features for Visual Question Answering

In Defense of Grid Features for Visual Question Answering一句话总结网格特征不仅准确度不输给区域特征,推理速度上又快出一个量级。导论本文主要探讨了在VQA等视觉语言任务中,使用什么类型的图像特征可以达到更好的效果。区域特征(Regions)还是网格特征(Grids)?在以VQA为代表的一系列视觉语言任务中,Bottom-Up注意力方法得到了广泛应用,并取得了优异的效果。这种方法将图像表示为一组基于Bounding box的区域特征,

2021-11-29 19:38:59 2682

原创 『论文笔记』Visually Grounded Reasoning across Languages and Cultures

Visually Grounded Reasoning across Languages and Cultures一句话总结作者认为以ImageNet为代表的数据集由于数据均来源自英文词库,天生带有英语的偏置,因此提出了多文化多语言的数据集MaRVL,以推动领域发展。关于本文:来自EMNLP 2021的Best Paper,今年EMNLP的长、短、demo最佳论文均为数据集相关文章,可见算法做到一定程度之后,领域自然又会将目光聚焦在数据身上,算法-数据集-算法-数据集,或许是一个必然的上升螺旋

2021-11-04 17:00:01 661

原创 『论文笔记』Designing and Interpreting Probes with Control Tasks

Designing and Interpreting Probes with Control Tasks一句话总结提出selective与Control tasks用来评估 探针是否真的能验证网络学习到了某种性质,抑或只是探针拟合了结果。导论Motivation:NLP任务都存在着一个常见的问题:我的神经网络有没有学到某个性质Y?为了验证这一问题,常常会设计一种探针任务(Probe Task),如下图所示:将句子输入到ELMo中,得到单词的上下文词表示,接着使用Probe函数(一般是

2021-11-01 14:24:14 226

原创 『VQA认知』如何理解Bias?

背景本篇是从认知角度针对VQA领域中Bias现象的一些思考,特此记录下来。VQA中的Bias一般指的是 语言偏置(Language Bias),它会使得模型在回答问题时依赖于问题与答案之间的表面相关性,忽视图像信息。一个比较经典的例子是,对于问题“图中的香蕉是什么颜色?”,尽管图中所给香蕉是尚未成熟的“绿色”,模型依旧会倾向于预测“黄色”。坏的偏置 好的上下文在论文CF-VQA中,作者是这样解读语言偏置(Language Bias)的。We argue that the language p

2021-10-30 19:20:33 1588

原创 『论文笔记』Roses are Red, Violets are Blue... But Should VQA expect Them To?

Roses are Red, Violets are Blue… But Should VQA expect Them To?一句话总结提出新的benchmark GQA-OOD,旨在划分高频及低频(OOD)样本并测量模型在不同条件(in-distribution、out-of-distribution)下的性能一点题外话本文的题目改编自英文中一首脍炙人口的打油诗:”Roses are red,violets are blue,sugar is sweet and so are you.“

2021-10-27 16:59:14 878

原创 『论文笔记』OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge一句话总结提出数据集OK-VQA,其中的问题均需要根据外部知识推理才能回答。导论Motivation:现有VQA数据集中的大多数问题不需要逻辑推理或者与外部知识的联系,仅仅是有关数量、视觉属性以及物体检测的简单问题。Contribution:本文提出一个 只包含需要外部知识回答的问题 的数据集OK-VQA(Outside Knowledg

2021-10-21 14:03:17 1733

原创 『论文笔记』Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions一句话总结本文提出一个基于反事实数据增强的用来评估鲁棒性的指标RAD,简而言之,就是把问题换种问法看模型还能回答正确吗。导论Motivation:目前为止,在分布变化的鲁棒性方面还没有提出任何度量方法measure。Contribution:本文提出一个可以将VQA模型对分布偏移的鲁棒性表示出来的基于一致性的度量方

2021-10-20 21:35:30 378

原创 『Python』浅析Python作用域

Python作用域最近在解Leetcode题的时候,感觉自己对于Python的作用域很模糊,什么时候加self,什么时候用global nonlocal关键字,完全在摸黑探索,故准备对此进行总结。LEGB提到Python作用域,最重要的就是LEGB原则。L:local,局部作用域,即函数中定义的变量;E:enclosing,嵌套的父级函数的局部作用域,即包含此函数的上级函数的局部作用域,但不是全局的;G:globa,全局变量,就是模块级别定义的变量;B:built-in,系统固定模块里面的

2021-05-20 22:51:31 188

原创 『Linux』如何将输出直接写入文件?tee及2>&1命令解析

『Linux』如何将输出直接写入文件?tee及2>&1命令解析前言为什么要将输出结果写入文件呢?我们知道,标准输出的缓存往往有限制,而你编译的程序产生的log可能会很多,若是超出了缓存便可能造成log不完整。此外,log信息覆盖整个屏幕也不便于查看。所以将输出结果直接写入文件,从文件中可以看到完整的log信息,方便查找问题。实践输出结果显示于屏幕及文件给出测试文件test.py:import sysprint("输出到标准输出")print("输出到标准错误输出", fi

2021-05-20 22:43:37 7120

原创 『前端风云』Vite Webpack 恩怨史

Vite与WebpackVite是什么?Vite是一种新型的前端构建工具,由Vue的作者尤大开发。Webpack是什么?本质上,webpack 是一个用于现代 JavaScript 应用程序的 静态模块打包工具Webpack是打包工具。为什么要打包?随着前端项目的复杂度升级,代码规范和管理就必须要同步提升。于是,编程社区中开始提出多种模块化规范,服务端选择了 CommonJS 规范,客户端选择AMD规范,均为JS编程却有两种不同的模块化规范,在JS语言层面显然还不够。后来在ES6中,EC

2021-05-20 10:34:49 216

原创 『论文笔记』Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering

Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering一句话总结以维持语义正确性为前提,生成对抗样本进行VQA图像及文本的数据增强导论Motivation:近期工作表明VQA算法的性能一定程度上依赖于训练数据的数量,现存VQA算法能从更多的训练数据中受益,这意味着无需人工标注的数据增强是提升算法性能的一个好方向。现存的数据增强方法主要是通过Data warping和Oversampli

2021-03-26 14:03:23 442 3

原创 『论文笔记』Deconfounded Image Captioning

Deconfounded Image Captioning一句话总结作者认为图像描述等视觉语言类任务中偏置的罪魁祸首是预训练数据集,因此利用前后门调整方式去混杂。导论Motivation:最近的视觉语言社区越来越关注数据集偏置问题,陷入了”做一个数据集“;”有偏置“;”做一个新的“循环之中,尽管也有一些工作开始着眼于设计不受偏置影响的模型,但是却始终没有人探究偏置背后的原因究竟是什么。作者以图像描述任务为案例,试图探究这一原因,并得出”真正的恶魔存在于预训练数据集中“这一结论。Cont

2021-03-22 17:13:53 911

原创 『论文笔记』Two Causal Principles for Improving Visual Dialog

Two Causal Principles for Improving Visual DialogMotivation:受益于最近一段时间VQA领域在Encoder-Decoder框架方面取得的成果,视觉对话任务中模型性能也得到了显著的提升。当前社区一直把VisDial当作VQA的姊妹任务,只是在VQA的基础上添加了对话历史(History)输入。然而作者认为,VisDial本质上并非带有History的VQA。作者以因果推断的角度入手,引入两条因果原则,将所有的VisDial基线模型提升到SOTA。

2021-03-11 12:11:45 643 1

原创 『2021-新的旅程』决定入驻优快云啦!

我的第一篇博客为什么要写博客?新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入为什么要写博客?从大学刚入学使用OneNote等笔记类应用撰写并管理笔记,到后面入坑Markdown在Typora、VS Code等一众Mar

2021-01-01 19:02:42 251 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除