介绍几十篇我读过的顶会论文,大多数关于计算机视觉方向。

本文为一名硕士研究生在两年期间阅读上百篇顶会论文的精读笔记,涵盖图像分割、视频分类、机器翻译、GAN、CNN等多个方向。精选并概述数十篇关键论文,包括其创新点、实验结果及应用价值,旨在为新手提供学习指引。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

读硕士快2年,读了上百篇顶会论文,有泛读有精读,挑其中几十篇做个概括,并附上链接,希望给新人一点指点吧。论文方向有图像分割,视频分类,机器翻译,GAN,CNN等。

1.title: Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition

link:[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

这是有关多尺度特征表示的论文。主要解决问题图像分类网络受限于全连接层而不能接受任意尺度图像的问题,同时实验征明,多尺度特征表示在图像分类和目标检测任务中能更好的提升模型的性能

2.title: Pyramid Scene Parsing Network

link:[1612.01105] Pyramid Scene Parsing Network

这是有关图像语义分割的论文。好像是第一个将图像金字塔池化用在图像语义分割的论文,该论文在语义分割pascal voc2012数据取得85左右的好成绩,同时估计还启发了deeplab 实验室研究员提出膨胀卷积金字塔池化网络架构

3.title: Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

link:[1412.7062] Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

title Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

link:Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

tile Rethinking Atrous Convolution for Semantic Image Segmentation

link:https://arxiv.org/abs/1706.05587

title Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

link:[1802.02611v1] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

这是图像语义分割方向最重要的几篇论文。这几篇论文均为deeplab 实验室杰作,这些研究成果已经成为语义分割新高峰,而且论文中的实验方法细节详细,让人受益匪浅

4 title: Dynamic Routing Between Capsules

link:[1710.09829] Dynamic Routing Between Capsules

hinton 和他学生的论文,放在2017年nips上,想要取代CNN,提出了胶囊网络输,提出挤压损失函数以及动态路由算法。

5.title: Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

link:[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

这是一篇有关GAN的论文。提出DCGAN的论文,好像是该论文首次提出采用CNN做无监督学习提取特征,并且该论文为GAN的训练提出了很多指导性建议,采用adam优化,网络最后一层的激活函数采用有界函数。当然现在的Cyclegan 很值得学习以下,想法非常好,而且github上有非常健全的代码,clone下就可以用。 附上论文链接:[1703.10593] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

6.title:Neural Machine Translation by Jointly Learning to Align and Translate

link:[1409.0473v2] Neural Machine Translation by Jointly Learning to Align and Translate

这是一篇有关神经机器翻译的论文,当时知识粗略的看过,对其中具体讲述的内容已经忘了

7.title: Understanding Convolution for Semantic Segmentation

link:[1702.08502] Understanding Convolution for Semantic Segmentation

这是一篇有关语义分割的论文。好像是2017年的论文,在pascal voc 上的语义分割结果大概82左右,主要指出了deeplab提出空洞卷积池化卷积核的设计问题(gridding issue),但是,在deeplab 实验室随后的论文中反击道:并没有发现所谓的gridding issue真的存在问题

8.title: Fully Convolutional Instance-aware Semantic Segmentation

link:[1611.07709] Fully Convolutional Instance-aware Semantic Segmentation

title: Mask R-CNN

link:[1703.06870] Mask R-CNN

title:Path Aggregation Network for Instance Segmentation

link:[1803.01534] Path Aggregation Network for Instance Segmentation

这三篇论文都是实例分割方向。其中Mask-rcnn在github上有开源代码,而PAnet是2018年论文,是腾讯与香港中文大学联合提出的一种实例分割方法,据说分割精度超过Mask rcnn

9.title: Visualizing and Understanding Convolutional Network

link [1311.2901] Visualizing and Understanding Convolutional Networks

这篇论文是神经网络可视化方向,解读神经网络在训练过程中到底学习到了什么,在很大程度上打开了神经网络这个充满神奇力量的黑箱子。

10.title:Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

link:[1711.10305] Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

这篇论文方向是3D卷积在视频分类上的应用。论文里主要介绍了3Dresnet 在大量视频预训练后,可以在小数据集上取得不错的分类精度。

### 关于大型语言模型的级会议论文推荐 在学术界,涉及大型语言模型(Large Language Models, LLMs)的研究通常发表在人工智能领域最尖的会议上。这些会议包括但不限于 NeurIPS (Conference on Neural Information Processing Systems)[^4]、ICLR (International Conference on Learning Representations)[^5] 和 ACL (Annual Meeting of the Association for Computational Linguistics)[^6]。 以下是几个重要的研究方向及其对应的级会议: #### 1. 大型语言模型的基础理论与架构设计 这类研究主要探讨如何构建更高效、更大规模的语言模型以及优化其训练过程。NeurIPS 是该主题的主要发布平台之一。例如,在最近几年中,有关 Transformer 架构扩展的工作频繁出现在此会议上[^7]。 #### 2. 提升LLMs性能的技术方法 为了提高大规模预训练模型的效果,许多技术被提出并验证有效,比如微调策略、蒸馏技术和参数效率迁移学习等。ICLR 成为此类创新成果的重要展示场所。一项值得注意的是关于自监督学习进展的文章也常在此类场合分享[^8]。 #### 3. 应用场景探索与社会影响分析 随着 LLM 技术日益成熟,它们正广泛应用于各个行业之中;同时对其潜在的社会伦理问题也需要深入讨论。ACL 不仅关注自然语言处理方面的技术创新还重视跨学科合作来解决实际应用中的挑战[^9]。 此外,《Proceedings of Machine Learning Research》作为开放获取期刊系列也为高质量机器学习研究成果提供了良好渠道[^10]。 ```python import requests def fetch_top_conference_papers(conference_name): url = f"https://api.semanticscholar.org/graph/v1/paper/search?query={conference_name}&fields=title,url" response = requests.get(url).json() return [(paper['title'], paper['url']) for paper in response['data']] papers = fetch_top_conference_papers('large language model') for title, link in papers[:5]: print(f"- [{title}]({link})") ``` 上述脚本可以帮助快速检索到特定关键词相关的会文章链接列表。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值