川泽曦星-优快云博客

原创【三十九周】文献阅读：看与听第一人称动作：我们能够从中学习到什么？

本文提出了一种结合视觉和听觉信息的多模态方法，用于自我中心视角下的动作识别。通过系统地整合RGB、光流和音频模态，模型在EPIC-Kitchens数据集上实现了显著的性能提升，尤其是在动词识别任务中，其准确率比现有最优方法提高了5.18%。作者通过细致的实验分析揭示了多模态信息的互补性：视觉信息在物体识别中表现优异，而音频信息在动作识别中尤为重要。此外，本文还对动作的组成部分（动词和名词）进行了独立分析，为多模态动作识别提供了新的研究视角。

2025-04-06 12:28:51 733

原创【三十八周】文献阅读：用于RGB-D自我中心动作识别的多流深度神经网络

本文提出了一种多流深度神经网络（MDNN）方法，用于RGB-D第一人称动作识别。该方法通过三个深度卷积神经网络分别提取RGB帧、光流和深度帧的特征，并利用Cauchy估计器和正交性约束来最大化模态间的相关性并保留各模态的独特性。为进一步提升性能，MDNN结合手部线索（MDNN + Hand），通过全卷积网络分割手部区域并融合手部信息。实验在THU-READ、WCVS和GUN-71数据集上进行，结果表明MDNN和MDNN + Hand在动作识别任务中均优于现有方法，验证了多模态融合和手部线索的有效性。

2025-03-30 11:56:20 318

原创【三十七周】文献阅读：通过具有长期融合池化的双流卷积网络进行的第一人称动作识别

这篇论文提出了一种基于双流卷积神经网络和长期融合池化的第一人称动作识别方法。通过结合外观和运动信息，并引入新的池化操作，该方法能够有效地捕捉动作的时序结构，从而提升动作识别的性能。实验结果表明，该方法在Dogcentric数据集上达到了最先进的性能，并在UCF101数据集上也有一定的提升。尽管存在一些局限性，如数据集的规模和计算资源的消耗，但该方法为第一人称动作识别提供了一个有效的解决方案，并为未来的研究提供了重要的参考。

2025-03-23 18:15:49 1012

原创【三十六周】文献阅读：H+O：三维手部物体姿态和交互的统一自我中心识别

本文提出了一种名为 H+O 的统一框架，用于从单目 RGB 视频中联合推理手与物体的 3D 姿态、物体类别及交互动作。该框架通过全卷积网络将每帧图像划分为 13×13×5 的 3D 网格，每个网格单元直接预测手和物体的 3D 控制点（如手部关节或物体包围盒角点）、置信度、物体类别及动作概率，并通过相机内参矩阵将图像坐标转换为 3D 相机坐标系。高置信度的单帧预测输入至 LSTM 和 MLP 模块，显式建模手与物体的时空交互关系，最终输出整个序列的交互类别。

2025-03-16 21:14:15 817

原创【三十五周】文献阅读：AlphaPose: 实时全身区域多人姿态估计与跟踪

AlphaPose作为首个实现全身多人实时姿态估计与追踪的系统，突破了传统方法在精度与效率上的双重局限。针对全身姿态估计中存在的尺度差异大、关键点定位精度不足等问题，研究团队提出对称积分关键点回归（SIKR）方法，通过改进传统热力图回归的梯度对称性，有效解决了手部、面部等精细部位定位的量化误差问题。系统采用参数化姿态非极大值抑制（P-NMS）消除冗余检测框，引入姿态感知身份嵌入实现估计与追踪的联合优化。

2025-03-09 13:05:59 316

原创【三十五周】文献阅读：HRNet：视觉识别的深度高分辨率表征学习

本文提出了一种名为高分辨率网络（HRNet）的新型网络架构，旨在解决视觉识别任务中的高分辨率表示问题。与现有的方法不同，HRNet在整个过程中保持高分辨率表示，而不是通过低分辨率表示来恢复高分辨率。HRNet通过并行连接高分辨率和低分辨率卷积流，并反复进行多分辨率融合，从而生成语义丰富且空间精确的表示。首先，输入图像通过一个由两个步长为2的3x3卷积组成的初始模块（stem），将分辨率降低到1/4。然后，图像进入主体部分，主体部分由多个阶段组成，每个阶段包含多个并行卷积流，分别对应不同的分辨率。

2025-03-02 14:27:40 883

原创【三十四周】文献阅读：DeepPose: 通过深度神经网络实现人类姿态估计

人体姿态估计旨在通过图像定位人体关节，是计算机视觉领域的核心问题之一。传统方法多基于局部检测与图模型，虽在效率上表现优异，但受限于局部特征与有限的关节交互建模，难以应对遮挡、小关节及复杂姿态等挑战。DeepPose提出了一种基于深度神经网络（DNN）的整体回归框架，通过级联DNN结构实现高精度关节定位。首先输入整张图像，通过7层卷积网络直接回归所有关节的归一化坐标。然后基于初始预测，从高分辨率的局部子图像中进一步修正关节位置。

2025-02-23 18:00:56 1169

原创【三十三周】文献阅读：OpenPose: 使用部分亲和场的实时多人2D姿态估计

OpenPose是一种实时多人2D姿态估计系统，能够从图像或视频中检测人体的关键点（如关节）并将这些关键点关联到不同的人。其核心创新在于引入了部分亲和场（Part Affinity Fields, PAFs），这是一种非参数化的表示方法，用于编码肢体的位置和方向信息。PAFs通过2D向量场表示肢体的连接关系，帮助系统在复杂的多人场景中正确关联关键点。OpenPose的工作流程分为以下几个步骤：首先，通过卷积神经网络（CNN）生成置信度图（Confidence Maps），表示每个身体部位的位置；

2025-02-16 13:15:23 690

原创【第三十二周】文献阅读：分割一切

图像分割是计算机视觉领域的核心任务之一，其目标是将图像中的对象或区域精确分离。传统方法通常依赖于特定任务的数据集和模型设计，导致泛化能力有限。Meta AI团队提出的Segment Anything（SA）项目，通过引入可提示分割任务（Promptable Segmentation Task）、Segment Anything Model（SAM）和SA-1B数据集，旨在构建一个通用的图像分割基础模型（Foundation Model）。

2025-02-09 16:49:00 380

原创【第三十一周】文献阅读：DeepLab：基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割

DeepLab 是一种专为语义分割任务设计的深度学习模型，其创新点在于结合了空洞卷积（Atrous Convolution）与条件随机场（CRF）来提升分割精度。首先，DeepLab 使用预训练的深度卷积神经网络（如 VGG16），去除全连接层并将其转换为全卷积结构，以便处理任意尺寸的输入图像。接着，通过应用不同膨胀率的空洞卷积代替标准卷积操作，在不增加计算成本的情况下扩大感受野，从而捕捉更广泛的上下文信息。这种技术允许模型在保持高分辨率特征图的同时，有效地获取多尺度特征，对提高分割准确性至关重要。

2025-01-26 11:51:41 756

原创【第三十周】文献阅读：Mask R-CNN

本周阅读了MaskR-CNN的论文。MaskR-CNN是一种扩展了FasterR-CNN的强大框架，专门用于实例分割任务。它首先通过RPN生成大量候选区域（RegionProposals），然后利用FPN提取多尺度特征图，增强对不同尺寸目标的检测能力。为了确保空间对齐的准确性，MaskR-CNN引入了RoIAlign层，替代了传统的RoIPool层，使用双线性插值避免量化误差，更精确地映射每个感兴趣区域（RoI）到固定的输出尺寸。

2025-01-18 18:16:37 1077

原创【第二十九周】文献阅读：U-Net：用于生物图像分割的卷积神经网络

U-Net 是一种专为医学图像分割设计的卷积神经网络架构，由编码器和解码器两部分组成。其工作流程始于输入图像进入编码器，通过一系列下采样操作（如最大池化）逐步缩小空间分辨率，同时增加特征通道数以捕捉更高层次的抽象特征。为了弥补因下采样而丢失的空间信息，U-Net 引入了跳跃连接，将低层特征直接传递到对应的高层特征中。接着，在解码器路径中，网络通过上采样恢复原始的空间分辨率，并结合来自跳跃连接的低层特征进行精细化分割预测。

2025-01-12 18:12:58 980

原创【第二十八周】文献阅读：基于Transformer的端到端目标检测

本周主要阅读了 DETR 算法的原始论文。DETR 是将 Transformer 应用到计算机视觉领域的代表性算法，其不需要传统目标检测的 NMS 或 anchor 机制，而是直接将目标检测任务视为一个集合预测任务去输出预测集合。DETR 首先将输入图像通过一个 CNN 来提取特征并进行序列化，序列化之后的向量再输入到 encoder 中进行编码并产生包含上下文信息的向量。

2025-01-05 17:54:15 886

原创【第二十七周】文献阅读：SSD: 单阶段多边界框目标检测器

SSD是一种单阶段的目标检测模型，与传统两阶段模型采取 Region Proposals 的方法不同，SSD 使得特征图的每个位置都产生一组尺寸固定的默认边界框，在预测阶段网络直接为每个默认框中的每个类别生成对应的分数，然后再按照分数对边界框进行相应的调整以更好地匹配对象。此外，SSD 支持在不同的尺度下生成特征图再进行检测，和传统两阶段模型如 R-CNN、Fast R-CNN 和 Faster R-CNN 以及单阶段模型 YOLO 相比，SSD 对小目标的检测性能更好。

2024-12-29 17:46:20 1151

原创【第二十六周】文献阅读：你只需看一次：统一的实时目标检测

传统的两阶段目标检测算法是先提取候选框再对候选框进行分类，而 YOLO 算法将目标检测视为了一个包含边界框坐标、尺寸以及相关类别概率的回归问题。YOLO 算法开创了单阶段目标检测的先河，得益于端到端的网络结构设计，只需要一个单独的卷积神经网络经过一次前向传播，就可以直接预测图像中的边界框以及类别。相比于其他基于分类器的模型，YOLO 不需要对图像的不同位置或者不同尺度进行分类，而仅仅需要求解一个回归问题，极大地提高了检测效率，因此YOLO 最强大的优势就是检测速度极快，非常适合进行实时目标检测。

2024-12-22 19:18:37 1079

原创【第二十五周】文献阅读：用于目标检测和语义分割的丰富分层特征

本周阅读了两阶段计算机视觉目标检测的开山之作——Rich feature hierarchies for accurate object detection and semantic segmentation。本文中的R-CNN算法利用卷积神经网络来提取候选框特征进行目标区域的定位，再使用多个支持向量机进行候选框的分类，取得了比传统目标检测算法更高的性能。文中还提到了迁移学习的概念，通过在一个大的数据集中进行有监督的预训练，再将训练好的模型在特定领域上进行相应的微调。

2024-12-15 13:08:58 1034

原创【第二十四周】从大语言模型到多模态大模型的发展

第一种是编码器-解码器（Encoder-Decoder）。这种结构起源于 RNN 和 LSTM，首先由 Transformer运用到大语言模型中。Encoder-Decoder架构的编码器负责将输入序列编码为固定长度的上下文向量，解码器则根据这个上下文向量生成输出序列。在Transformer模型中，编码器使用双向注意力机制，解码器使用单向注意力机制，但解码器可以关注编码器输出的上下文信息。这种机制确保了模型能够同时处理输入和输出的复杂关系。

2024-12-08 13:46:11 1289 1

原创【第二十三周】图像生成与扩散模型

本周主要学习了扩散模型的原理，了解了文生图模型通过文字编码器、生成模型和隐空间解码器三部分实现。此外还学习了 Stable Diffusion 的基本框架和概念。Stable Diffusion 利用隐扩散模型（Latent Diffusion Models, LDMs）的技术来加速图像生成的过程，并且通过引入条件机制（conditional mechanisms）使得用户可以更好地控制生成的图像结果。

2024-12-01 11:40:00 819

原创【二十二周】信息论总结

信息论在深度学习中扮演了多重角色，主要体现在设计损失函数（如交叉熵损失）、模型正则化（如信息瓶颈原理）、特征选择与降维（如互信息）、模型评估与解释（如信息增益）、数据压缩与表示（如自编码器）以及生成模型和强化学习的应用中。通过这些方法，信息论不仅帮助设计高效的模型和算法，还促进了对模型行为的理解和解释，提高了模型的鲁棒性和泛化能力。本文从信息的度量出发，总结了熵和互信息的各种性质和规则，引出了吉布斯不等式和菲诺不等式。

2024-11-24 16:18:51 987

原创【第二十一周】网络爬虫实践

本周主要完成了陶博的大语言课程中布置的一个爬虫实践任务，为了加深记忆从而把这周自学到的内容都总结为周报。网络爬虫（web crawler）是一种自动化程序，用于在互联网上自动抓取和收集信息。‌ 它通过模拟人类用户的行为，按照一定的规则和算法，自动访问网页并提取所需的数据。网络爬虫通常从一个或多个初始网页的URL开始，然后根据预设的规则递归地访问其他网页，抓取其中的信息。‌爬虫和大语言模型（如GPT系列、BERT等）之间存在密切的关系，主要体现在数据收集和训练两个方面。

2024-11-17 09:55:11 1518

原创【第二十周】PyTorch深度学习实践3：RNN

本周主要复习了之前学过的循环神经网络，加深了对 RNN 基础结构和原理的印象，了解到了这种网络结构适用的任务类型以及优缺点，并且对 RNN 进行了相应的代码实践。RNN（Recurrent Neural Network，循环神经网络）是一类专门用于处理序列数据的神经网络。与传统的前馈神经网络（如多层感知机）不同，RNN具有内部状态（记忆），这使得它能够利用先前的信息来影响当前的输出。这种特性使得RNN非常适合处理时间序列数据、自然语言处理、语音识别等任务。

2024-11-10 20:23:08 661

原创【十九周】文献阅读：图像识别的深度残差学习

在之前对神经网络的基础学习中，师兄推荐了我去了解一下 ResNet。因此本周对 ResNet 的开山之作—进行了详细的阅读并进行了简单的代码实践。ResNet 主要解决了训练非常深的神经网络时出现的梯度消失或梯度爆炸问题，通过引入“残差块”或“跳连接”（skip connections）来解决这个问题。在传统的深度神经网络中，随着网络层数的增加，模型可能会遭遇网络退化问题，即随着网络深度的增加，模型的准确率反而会下降。

2024-11-03 13:41:23 983

原创【十八周】文献阅读：深入卷积

本周阅读了 GoogLeNet 的开山之作——Going Deeper with Convolutions，学习到了 Inception 模块的产生动机以及作用。文中提到了一个重要概念——稀疏性，它使得我们的网络在少量影响甚至不影响性能的前提下极大地减少计算量。由于我们当前的计算机硬件是为了密集计算而设计的，所以为了减少计算量，我们需要用一个密集计算组件去近似稀疏计算。

2024-10-27 19:41:24 722

原创【第十七周】文献阅读：QLABGrad: a Hyperparameter-Free and Convergence-Guaranteed Scheme for Deep Learning

由于机器学习课程的老师要求我们在后面的课程中分小组到讲台上去分享论文，所以本周的学习任务就是进行文献阅读。我选择了一篇来自今年2月份 AAAI 会议上的论文，这篇论文在上个月（9月）才被正式收录。这篇论文算是我第一篇进行逐字阅读的论文，下面的内容我会用我自己浅薄的数学理解进行推导和证明，如有错误，请不吝指正。

2024-10-20 17:32:48 1019

原创【第十六周】回顾线性回归与逻辑回归以及它们的详细推导过程

本周学校的机器学习课程正好讲完了逻辑回归内容，正好趁着这个时间来回顾以下之前所学的知识，手动推导了一下线性回顾与逻辑回归的全过程，顺便进行了一些额外的阅读学习。本周对线性回归和逻辑回归的重新推导加深了我对这些基础知识的印象，特别是对梯度和方向导数的理解中又更深入了一步，解决了很多之前并为注意到的遗留问题。希望往后也能这样继续充满学习热情来解决问题。下周见。

2024-10-13 20:58:19 959

原创【第十五周】PyTorch深度学习实践2

本周继续对 PyTorch 进行进一步学习，重点理解了张量的维度变化，在上一周的基础上更加深入地学习了 PyTorch 中各个模块的作用，加深了对神经网络构造流程的印象。同时对比了 NLLLoss 和 CrossEntropy 的作用，理解了为什么神经网络使用 CrossEntropy 作为损失函数时在网络的最后一层不做激活。对于卷积神经网络，深刻理解了经过卷积、池化、全连接之后各个张量的维度变化。

2024-10-06 20:49:17 1036

原创【第十四周】PyTorch深度学习实践1

本周主要对 PyTorch 进行实践学习，了解了PyTorch 中各个常用的类以及方法，学习了搭建神经网络的四个步骤，为后面手动复现模型提供了实践基础。其中，最重要的是学习到了看文档的能力，对于新学习到的类和方法能够通过查询文档去理解用法和作用。PyTorch 英文文档定义损失和优化器model.parameters() 返回模型中所有需要优化的参数。return xModel 继承自 torch.nn.Module 类。

2024-09-29 10:56:37 923

原创【第十三周】李宏毅机器学习笔记11：自监督学习

这周主要学习了自监督学习的概念，了解了 BERT 是如何实现自监督学习以及 BERT 为什么能够有效地完成任务。除此之外，还通过 BERT 的四个例子来理解怎样使用 BERT。最后了解了 Multi-lingual BERT 以及 GPT 的基本知识。BERT（Bidirectional Encoder Representations from Transformers）是一种由Google在2018年提出的自然语言处理预训练技术。

2024-09-22 18:50:32 1014

原创【第十二周】李宏毅机器学习笔记10：生成式对抗网络2

本周主要学习了上周关于生成式对抗网络的剩余知识，了解了为什么 GAN 难以训练。此外，还学习了如何去评估 GAN 的性能以及在训练 GAN 过程中比较容易遇到的问题。最后还学习了条件生成对抗网络以及如何实现在非配对数据中学习。生成对抗网络（GANs）虽然强大且具有广泛应用潜力，但由于其独特的架构和训练方式，存在一些挑战使其训练变得困难。

2024-09-15 20:46:21 720

原创【第十一周】李宏毅机器学习笔记09：生成式对抗网络1

本周学习了生成式对抗网络，了解了生成器和判别器的基础原理，同时学习了 GAN 的训练过程和算法思想。最后了解了 Wasserstein Distance，学习了 WGAN 的一点基础。生成对抗网络（GAN）由生成器和判别器两部分组成：生成器学习生成类似真实数据的样本，而判别器则负责区分真实数据与生成的数据。传统的GAN采用最小最大博弈框架，其中生成器试图“欺骗”判别器，使它难以分辨真假，而判别器则努力准确地区分真实数据和生成数据。

2024-09-08 20:46:03 882

原创【第十周】李宏毅机器学习笔记08：各种各样的Attention

本周主要学习了除了 Self-attention 之外的各种 attention 机制，包括 Local Attention 、Stride Attention 和 Global Attention 等，每种不同的 attention 机制都适应于不同场景的任务。在多头注意力机制中，通常不同的头采取不同的注意力机制，充分利用了多种注意力机制的优点。除此之外还学习了可以让机器自己学习应该计算哪个部分注意力的机制，机器将输入序列传入一个新的神经网络，经过训练后生成一个矩阵来标记哪一部分的注意力应该被计算。

2024-09-01 19:00:00 1160

空空如也

空空如也