行人检测小结

原创

已于 2023-12-22 12:59:39 修改 · 457 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能

于 2021-08-16 22:20:59 首次发布

本人是计算机视觉小白，本科阶段跟着导师学习了一些计算机视觉相关的知识，前前后后断断续续的学习了将近一年，最大的收获就是培养了自己在计算机视觉方面的兴趣，我觉得这是一项很有意义的工作，将来也很有兴趣在这个专业领域进行更广更深的探索。但是由于考研临近，被迫暂时放下了手中没有读完的论文和没有跑完的实验，此篇文章是对自己所做工作的一个阶段性总结，以及在学习的过程中自己的思考，也是自己与计算机视觉的一个短暂的分手，但是，后会有期。

大二下学期一个偶然的机会，开始接触计算机视觉相关的知识，记得导师给我的第一篇文章是Facebook AI的一篇关于目标检测的文章——《End-to-End Object Detection with Transformers.这是一篇模型跨界应用的文章，文中提出了将自然语言处理中的Transformers模型应用于目标检测方向，Transformers模型包括编码和解码两个阶段，其中用到了注意力模型，也就是attention机制。当时自己查阅了很多资料，由于论文比较新，所以能查到的资料微乎其微，包括各类博客以及b站上稀少的讲解视频，自己一直处于似懂非懂的状态。于是打算将论文在服务器上复现出来，打算将论文跑通之后，自己一行一行的去单步调试（后来发现这一方法是不可行的），可是由于自己实验室CUDA版本与论文中所要求的版本不匹配，导致无法复现，与导师进行交流之后，决定放弃这篇文章。

万事开头难，自己在这篇没能复现出来的文章上花费了大量的时间，但是最终也没能达到自己想要的结果。但是总归是有收获的，包括对attention机制的学习，了解了BatchNormatiom、归一化、各类激活函数等相关的知识。也避免了自己以后踩坑：对于一个初学者来说，首先要找一篇带code的能复现的论文，之后再进行深究，才能结合代码理解，如果论文没能公开code，只了解其基本的思想就可以了，没公开大概率是因为作者的相关工作也正在开展，甚至还存在问题。

时间已经来到了大三，导师给了我其他的大概三四篇顶会文章，我认真的研究了其中一篇带code的文章，并对论文进行了复现，同时认真分析了其他几篇论文的思想，最后得到了一个简单的idea，将其中的两篇论文提出的方法进行融合，以其中一篇论文作为baseline，将另一篇论文提出的的方法加进去