本人是计算机视觉小白,本科阶段跟着导师学习了一些计算机视觉相关的知识,前前后后断断续续的学习了将近一年,最大的收获就是培养了自己在计算机视觉方面的兴趣,我觉得这是一项很有意义的工作,将来也很有兴趣在这个专业领域进行更广更深的探索。但是由于考研临近,被迫暂时放下了手中没有读完的论文和没有跑完的实验,此篇文章是对自己所做工作的一个阶段性总结,以及在学习的过程中自己的思考,也是自己与计算机视觉的一个短暂的分手,但是,后会有期。
大二下学期一个偶然的机会,开始接触计算机视觉相关的知识,记得导师给我的第一篇文章是Facebook AI的一篇关于目标检测的文章——《End-to-End Object Detection with Transformers.这是一篇模型跨界应用的文章,文中提出了将自然语言处理中的Transformers模型应用于目标检测方向,Transformers模型包括编码和解码两个阶段,其中用到了注意力模型,也就是attention机制。当时自己查阅了很多资料,由于论文比较新,所以能查到的资料微乎其微,包括各类博客以及b站上稀少的讲解视频,自己一直处于似懂非懂的状态。于是打算将论文在服务器上复现出来,打算将论文跑通之后,自己一行一行的去单步调试(后来发现这一方法是不可行的),可是由于自己实验室CUDA版本与论文中所要求的版本不匹配,导致无法复现,与导师进行交流之后,决定放弃这篇文章。
万事开头难,自己在这篇没能复现出来的文章上花费了大量的时间,但是最终也没能达到自己想要的结果。但是总归是有收获的,包括对attention机制的学习,了解了BatchNormatiom、归一化、各类激活函数等相关的知识。也避免了自己以后踩坑:对于一个初学者来说,首先要找一篇带code的能复现的论文,之后再进行深究,才能结合代码理解,如果论文没能公开code,只了解其基本的思想就可以了,没公开大概率是因为作者的相关工作也正在开展,甚至还存在问题。
时间已经来到了大三,导师给了我其他的大概三四篇顶会文章,我认真的研究了其中一篇带code的文章,并对论文进行了复现,同时认真分析了其他几篇论文的思想,最后得到了一个简单的idea,将其中的两篇论文提出的方法进行融合,以其中一篇论文作为baseline,将另一篇论文提出的的方法加进去

最低0.47元/天 解锁文章
1411

被折叠的 条评论
为什么被折叠?



