
文献阅读
文章平均质量分 97
川泽曦星
我看我是完全不懂喔
展开
-
【三十八周】文献阅读:用于RGB-D自我中心动作识别的多流深度神经网络
本文提出了一种多流深度神经网络(MDNN)方法,用于RGB-D第一人称动作识别。该方法通过三个深度卷积神经网络分别提取RGB帧、光流和深度帧的特征,并利用Cauchy估计器和正交性约束来最大化模态间的相关性并保留各模态的独特性。为进一步提升性能,MDNN结合手部线索(MDNN + Hand),通过全卷积网络分割手部区域并融合手部信息。实验在THU-READ、WCVS和GUN-71数据集上进行,结果表明MDNN和MDNN + Hand在动作识别任务中均优于现有方法,验证了多模态融合和手部线索的有效性。原创 2025-03-30 11:56:20 · 327 阅读 · 0 评论 -
【三十五周】文献阅读:AlphaPose: 实时全身区域多人姿态估计与跟踪
AlphaPose作为首个实现全身多人实时姿态估计与追踪的系统,突破了传统方法在精度与效率上的双重局限。针对全身姿态估计中存在的尺度差异大、关键点定位精度不足等问题,研究团队提出对称积分关键点回归(SIKR)方法,通过改进传统热力图回归的梯度对称性,有效解决了手部、面部等精细部位定位的量化误差问题。系统采用参数化姿态非极大值抑制(P-NMS)消除冗余检测框,引入姿态感知身份嵌入实现估计与追踪的联合优化。原创 2025-03-09 13:05:59 · 342 阅读 · 0 评论 -
【三十五周】文献阅读:HRNet:视觉识别的深度高分辨率表征学习
本文提出了一种名为高分辨率网络(HRNet)的新型网络架构,旨在解决视觉识别任务中的高分辨率表示问题。与现有的方法不同,HRNet在整个过程中保持高分辨率表示,而不是通过低分辨率表示来恢复高分辨率。HRNet通过并行连接高分辨率和低分辨率卷积流,并反复进行多分辨率融合,从而生成语义丰富且空间精确的表示。首先,输入图像通过一个由两个步长为2的3x3卷积组成的初始模块(stem),将分辨率降低到1/4。然后,图像进入主体部分,主体部分由多个阶段组成,每个阶段包含多个并行卷积流,分别对应不同的分辨率。原创 2025-03-02 14:27:40 · 909 阅读 · 0 评论 -
【三十四周】文献阅读:DeepPose: 通过深度神经网络实现人类姿态估计
人体姿态估计旨在通过图像定位人体关节,是计算机视觉领域的核心问题之一。传统方法多基于局部检测与图模型,虽在效率上表现优异,但受限于局部特征与有限的关节交互建模,难以应对遮挡、小关节及复杂姿态等挑战。DeepPose提出了一种基于深度神经网络(DNN)的整体回归框架,通过级联DNN结构实现高精度关节定位。首先输入整张图像,通过7层卷积网络直接回归所有关节的归一化坐标。然后基于初始预测,从高分辨率的局部子图像中进一步修正关节位置。原创 2025-02-23 18:00:56 · 1200 阅读 · 0 评论 -
【三十三周】文献阅读:OpenPose: 使用部分亲和场的实时多人2D姿态估计
OpenPose是一种实时多人2D姿态估计系统,能够从图像或视频中检测人体的关键点(如关节)并将这些关键点关联到不同的人。其核心创新在于引入了部分亲和场(Part Affinity Fields, PAFs),这是一种非参数化的表示方法,用于编码肢体的位置和方向信息。PAFs通过2D向量场表示肢体的连接关系,帮助系统在复杂的多人场景中正确关联关键点。OpenPose的工作流程分为以下几个步骤:首先,通过卷积神经网络(CNN)生成置信度图(Confidence Maps),表示每个身体部位的位置;原创 2025-02-16 13:15:23 · 720 阅读 · 0 评论 -
【第三十二周】文献阅读:分割一切
图像分割是计算机视觉领域的核心任务之一,其目标是将图像中的对象或区域精确分离。传统方法通常依赖于特定任务的数据集和模型设计,导致泛化能力有限。Meta AI团队提出的Segment Anything(SA)项目,通过引入可提示分割任务(Promptable Segmentation Task)、Segment Anything Model(SAM)和SA-1B数据集,旨在构建一个通用的图像分割基础模型(Foundation Model)。原创 2025-02-09 16:49:00 · 386 阅读 · 0 评论 -
【第三十一周】文献阅读:DeepLab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割
DeepLab 是一种专为语义分割任务设计的深度学习模型,其创新点在于结合了空洞卷积(Atrous Convolution)与条件随机场(CRF)来提升分割精度。首先,DeepLab 使用预训练的深度卷积神经网络(如 VGG16),去除全连接层并将其转换为全卷积结构,以便处理任意尺寸的输入图像。接着,通过应用不同膨胀率的空洞卷积代替标准卷积操作,在不增加计算成本的情况下扩大感受野,从而捕捉更广泛的上下文信息。这种技术允许模型在保持高分辨率特征图的同时,有效地获取多尺度特征,对提高分割准确性至关重要。原创 2025-01-26 11:51:41 · 767 阅读 · 0 评论 -
【第三十周】文献阅读:Mask R-CNN
本周阅读了MaskR-CNN的论文。MaskR-CNN是一种扩展了FasterR-CNN的强大框架,专门用于实例分割任务。它首先通过RPN生成大量候选区域(RegionProposals),然后利用FPN提取多尺度特征图,增强对不同尺寸目标的检测能力。为了确保空间对齐的准确性,MaskR-CNN引入了RoIAlign层,替代了传统的RoIPool层,使用双线性插值避免量化误差,更精确地映射每个感兴趣区域(RoI)到固定的输出尺寸。原创 2025-01-18 18:16:37 · 1106 阅读 · 0 评论 -
【第二十九周】文献阅读:U-Net:用于生物图像分割的卷积神经网络
U-Net 是一种专为医学图像分割设计的卷积神经网络架构,由编码器和解码器两部分组成。其工作流程始于输入图像进入编码器,通过一系列下采样操作(如最大池化)逐步缩小空间分辨率,同时增加特征通道数以捕捉更高层次的抽象特征。为了弥补因下采样而丢失的空间信息,U-Net 引入了跳跃连接,将低层特征直接传递到对应的高层特征中。接着,在解码器路径中,网络通过上采样恢复原始的空间分辨率,并结合来自跳跃连接的低层特征进行精细化分割预测。原创 2025-01-12 18:12:58 · 994 阅读 · 0 评论 -
【第二十八周】文献阅读:基于Transformer的端到端目标检测
本周主要阅读了 DETR 算法的原始论文。DETR 是将 Transformer 应用到计算机视觉领域的代表性算法,其不需要传统目标检测的 NMS 或 anchor 机制,而是直接将目标检测任务视为一个集合预测任务去输出预测集合。DETR 首先将输入图像通过一个 CNN 来提取特征并进行序列化,序列化之后的向量再输入到 encoder 中进行编码并产生包含上下文信息的向量。原创 2025-01-05 17:54:15 · 903 阅读 · 0 评论 -
【第二十七周】文献阅读:SSD: 单阶段多边界框目标检测器
SSD是一种单阶段的目标检测模型,与传统两阶段模型采取 Region Proposals 的方法不同,SSD 使得特征图的每个位置都产生一组尺寸固定的默认边界框,在预测阶段网络直接为每个默认框中的每个类别生成对应的分数,然后再按照分数对边界框进行相应的调整以更好地匹配对象。此外,SSD 支持在不同的尺度下生成特征图再进行检测,和传统两阶段模型如 R-CNN、Fast R-CNN 和 Faster R-CNN 以及单阶段模型 YOLO 相比,SSD 对小目标的检测性能更好。原创 2024-12-29 17:46:20 · 1177 阅读 · 0 评论 -
【第二十六周】文献阅读:你只需看一次:统一的实时目标检测
传统的两阶段目标检测算法是先提取候选框再对候选框进行分类,而 YOLO 算法将目标检测视为了一个包含边界框坐标、尺寸以及相关类别概率的回归问题。YOLO 算法开创了单阶段目标检测的先河,得益于端到端的网络结构设计,只需要一个单独的卷积神经网络经过一次前向传播,就可以直接预测图像中的边界框以及类别。相比于其他基于分类器的模型,YOLO 不需要对图像的不同位置或者不同尺度进行分类,而仅仅需要求解一个回归问题,极大地提高了检测效率,因此YOLO 最强大的优势就是检测速度极快,非常适合进行实时目标检测。原创 2024-12-22 19:18:37 · 1084 阅读 · 0 评论 -
【第二十五周】文献阅读:用于目标检测和语义分割的丰富分层特征
本周阅读了两阶段计算机视觉目标检测的开山之作——Rich feature hierarchies for accurate object detection and semantic segmentation。本文中的R-CNN算法利用卷积神经网络来提取候选框特征进行目标区域的定位,再使用多个支持向量机进行候选框的分类,取得了比传统目标检测算法更高的性能。文中还提到了迁移学习的概念,通过在一个大的数据集中进行有监督的预训练,再将训练好的模型在特定领域上进行相应的微调。原创 2024-12-15 13:08:58 · 1057 阅读 · 0 评论 -
【十九周】文献阅读:图像识别的深度残差学习
在之前对神经网络的基础学习中,师兄推荐了我去了解一下 ResNet。因此本周对 ResNet 的开山之作—进行了详细的阅读并进行了简单的代码实践。ResNet 主要解决了训练非常深的神经网络时出现的梯度消失或梯度爆炸问题,通过引入“残差块”或“跳连接”(skip connections)来解决这个问题。在传统的深度神经网络中,随着网络层数的增加,模型可能会遭遇网络退化问题,即随着网络深度的增加,模型的准确率反而会下降。原创 2024-11-03 13:41:23 · 1008 阅读 · 2 评论 -
【十八周】文献阅读:深入卷积
本周阅读了 GoogLeNet 的开山之作——Going Deeper with Convolutions,学习到了 Inception 模块的产生动机以及作用。文中提到了一个重要概念——稀疏性,它使得我们的网络在少量影响甚至不影响性能的前提下极大地减少计算量。由于我们当前的计算机硬件是为了密集计算而设计的,所以为了减少计算量,我们需要用一个密集计算组件去近似稀疏计算。原创 2024-10-27 19:41:24 · 726 阅读 · 0 评论 -
【第十七周】文献阅读:QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning
由于机器学习课程的老师要求我们在后面的课程中分小组到讲台上去分享论文,所以本周的学习任务就是进行文献阅读。我选择了一篇来自今年2月份 AAAI 会议上的论文,这篇论文在上个月(9月)才被正式收录。这篇论文算是我第一篇进行逐字阅读的论文,下面的内容我会用我自己浅薄的数学理解进行推导和证明,如有错误,请不吝指正。原创 2024-10-20 17:32:48 · 1044 阅读 · 0 评论