lalahappy-优快云博客

原创 HigherHRNet--论文记录

HigherHRNet 是自底向上的关键点检测算法；在 COCO 数据集训练验证；我们在 HRNet 的1/4分辨率路径上构建高分辨率特征金字塔，以保证计算效率。为使HigherHRNet能够处理尺度变化问题，我们进一步提出多分辨率监督策略——将不同分辨率的训练目标分配给特征金字塔的对应层级。最后，在推理阶段引入简捷的多分辨率热力图聚合策略，从而生成尺度感知的高分辨率热力图。

2025-12-05 14:13:09 943

原创 RelTR paper

EpEtEsEoVsub−Epre−VobjZ0∈RH×W×dZ∈RHW×dZ0Ep∈RHW×dNeQe∈RNe×dNeQe∈RNe×dNtGivenNtZQeNttriplets即，我认为 the triplet decoder layer 输入大概有：ZQe∈RN。

2025-10-24 16:22:36 724

真实坐标 x=1.7 → 落在 bin_1=[1,2) 和 bin_2=[2,3) 之间；真实坐标 x=1.7 → 落在 bin_1=[1,2) 和 bin_2=[2,3) 之间；2.概率权重与距离成反比（这里理解为标签，而非预测概率）若 x 靠近左侧 bin 的边界如 x=1.1 ，则。若 x 靠近右侧 bin 的边界如 x=1.9 ，则。计算预测坐标 (倒推标签坐标)step 3：计算 loss。step 1: 生成标签。step 2: 模型预测。step 4: 推理坐标。

2025-08-04 11:00:46 312

原创 python-print

1、print()函数可以输出一个值，也可以同时输出多个值，如果输出多个值，这多个值之间用半角逗号隔开；2、sep参数指定输出的多个值之间的间隔符，如不指定，则默认间隔符是一个半角空格；3、end参数指定输出所有的值之后再输出什么符号，如不指定，则默认输出一个换行符；参考：https://www.modb.pro/db/547994。4、file参数指明输出到文件还是到屏幕，默认是输出到屏幕；5、flush参数指明是否立即将输出缓冲区的内容全部输出。

2025-01-23 10:55:02 215

原创文档智能：OCR+Rocketqa+layoutxlm ＜Rocketqa＞

First,Second,Third,采用的一系列优化策略：跨批次负采样（Cross-batch Negatives）、去噪的强负例采样（Denoised Hard Negatives）和数据增强（Data Augmentation）等。用于解决训练过程中负例样本不足，和，存在大量错误负例样本的问题。

2025-01-15 11:26:04 790

原创 Swin transformer 论文阅读记录 & 代码分析

该篇文章，是我解析 Swin transformer 论文原理（结合pytorch版本代码）所记，图片来源于源paper或其他相应博客。代码也非原始代码，而是从代码里摘出来的片段，配上简单数据，以便理解。当然，也可能因为设置数据不当，造成误解，请多指教。刚写了一部分。先发布。希望多多指正。Figure 1.

2024-12-19 17:07:33 1500 1

原创 Qwen 论文阅读记录

QWEN 是一个全面的语言模型系列，包含参数数量不同的多个独立模型。and以上两句话可以根据下图综合理解：We then这些聊天模型在创建代理应用方面，具备先进的工具使用和规划能力，即使在执行如使用代码解释器等复杂任务时，与更大的模型相比也展现出了令人印象深刻的性能。它们还可以充当通用代理，与外部系统、工具和模型协作，以实现人类设定的目标。

2024-12-10 16:08:30 2066 1

原创文档智能：OCR+Rocketqa+layoutxlm＜LayoutLMv2＞

预训练的模型从不同的文档类型中吸收跨模态知识，从而保持了这些布局和样式之间的局部不变性。由于空间位置是连续的（例如，图像中的像素坐标），但模型参数（包括偏置项）是离散的（存储在内存中的数值），因此我们需要一种方法来将连续的空间位置映射到离散的参数上。即，在一个具有多头注意力的模型中，每个注意力头都有自己的独特偏置项，但这些偏置项在模型的所有编码器层之间是共享的。在深度学习和计算机视觉的上下文中，偏置项通常被设计为与模型中的其他参数（如权重）一起学习和优化，但它们并不直接对应于输入数据的连续特征或位置。

2024-09-12 16:46:20 1496

原创语音识别-paddlespeech-流程梳理

ASR-PaddleSpeech

2024-05-13 16:36:18 1488

原创 GAN反演+老照片修复

一个自然的想法是在GAN的图像空间寻找一张灰度化后与目标图片一致的图片，由于GAN倾向于输出自然的图片，因此找到的这张图会有自然的颜色。即，如果我们要复原图像A，则可以训练GAN网络，使其生成一个跟图像A的GroundTruth相似度很高很高的图像，该生成图像即为我们修复后的图像；用GAN模型近似表征自然图像分布，在恢复图像时，对于失真图，要恢复它，其实就是要在GAN表征的自然图分布中找到一个跟失真图最相似的图。提出了GFP-GAN，利用丰富多样的先验，将其封装在一个预训练的人脸中，用于模糊人脸修复。

2024-04-17 15:46:05 1628

原创人脸识别：Arcface--loss+code

之前只接触过传统方法的人脸识别算法，本以为基于深度学习的方法会使用对比损失之类的函数进行训练，但是Arcface算法基于softmax进行了创新，本文未深究其详细的loss公式原理，在大致明白其方向下，运行了代码，记录如下。因为使用的.pt应该是要求128*128的尺寸，我仅是将图片直接reshape，并未进行其他操作，故而得分都不是很高，但是简单的设置阈值，也能得到正确的结果；表示类别得分 f 的向量的第 j 个元素（ j ∈ [1, K]，K 是类的数量），N 是训练数据的数量。经常用于相似度计算。

2024-04-02 17:39:32 2435

原创反向传播--雅可比矩阵

第一层是输入层，包含两个神经元i1i2和截距项b1;第二层是隐含层，包含两个神经元h1h2和截距项b2;第三层是输出o1o2;每条线上标的wi是层与层之间连接的权重，激活函数采用sigmoid函数；

2024-03-27 16:47:24 1727 1

原创 Sklearn相关介绍及代码示例-1

无监督模型包括，各种聚类分析(KMeans, DBSCAN)、主成分分析 (PCA)、独立成分分析 (ICA)、隐含狄利克雷分配 (LDA) 等等；

2024-03-13 11:59:38 677 1

原创信息增益-决策树

信息增益-离散型

2024-03-05 18:02:55 1206 2

原创 I/O理论-1

TextIOBase ABC是 IOBase 的另一个子类，它处理字节表示文本的流，并处理字符串之间的编码和解码。由于要打印的参数会被转换为文本字符串，因此print()不能用于二进制模式的文件对象。所有流对提供给它们的数据类型都很敏感。1、print()函数可以输出一个值，也可以同时输出多个值，如果输出多个值，这多个值之间用半角逗号隔开；所有非关键字参数都会被转换为字符串，并会被写入到流，以sep分割，并在末尾加上end。三种主要的 I/O类型分别为: 文本 I/O, 二进制 I/O 和原始 I/O。

2024-03-01 17:03:49 981 3

原创 wav2vec--

Wav2vec: Unsupervised Pre-training for Speech Recognition该模型非完整的ASR，而是一个将wav通过标记的、未标记的数据，通过无监督的方式进行训练，得到可以送入ASR中的向量；以提升ASR的准确率；当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能。最近，在标注数据缺少的情况下，神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练，再在数据量受限的目标数据上fine-tune来提高

2022-02-07 15:18:41 6669 2

原创语音识别-初识

ASRThttps://blog.ailemon.net/2018/08/29/asrt-a-chinese-speech-recognition-system/ASR-Automatic Speech Recognition &&&&&&&&&& Paddle Speech涉及数据集：Aishell, wenetspeech, librispeech…涉及方法：① DeepSpeech2: End.

2022-01-26 10:49:45 3688

原创 Keras-Yolo v3 代码对应含义

pred_yolo_1 = _conv_block(x, [{'filter': 1024, 'kernel': 3, 'stride': 1, 'bnorm': True, 'leaky': True, 'layer_idx': 80}, {'filter': (3*(5+nb_class)), 'kernel': 1, 'stride': 1, 'bnorm': False, 'leaky': False, 'layer_idx': 81

2021-12-20 15:00:42 530

原创 Yolo v1 v2

yolov1 v2

2021-12-17 14:33:20 290

原创多标签学习-多任务学习

参考搬运：https://blog.youkuaiyun.com/cdknight_happy/article/details/105427428行人属性识别(Pedestrian Attribute Recognition, PAR)，目的是从输入图像中挖掘行人的属性信息。行人属性识别挖掘得到的是行人的高层语义信息，这些信息和低层特征不同，对视角变换和成像条件的变化比较鲁棒。计算机视觉领域的很多算法，如ReID和行人检测，都会集成行人的属性信息以提升算法的鲁棒性。受视角、光线、分辨率等因素的影响，它仍然是一个

2021-12-15 09:22:22 5101

原创 loss-FSCE 小样本识别

FSCE: Few-Shot Object Detection via Contrastive Proposal Encodingcontrastive predictive coding ------------ CPC领域对比预测编码Contrastive Proposal Encoding (CPE) LossN个 ---- {z, u, y}z----featureu----IOU scorey----label of GT公式4----筛选 BBOX 的 IOU；公式3

2021-12-14 10:32:03 4194 1

转载点云简单介绍

什么是点云，如何获得点云。A. 点云包含了很多信息，除了3维坐标数据之外，还可能包括颜色、分类值、强度值、时间等。B. 点云数据可以由多种方法获得：直接由Lidar激光扫描出点云数据。不同角度的2D图像组合成点云由深度图（Depth Map）生成点云，即将图像坐标+深度信息从图像坐标系转换为世界坐标系。C. 点云和深度图都会出现深度信息的缺失，因为往往传感器只能捕捉物体表面的信息。D. obj .off .ply格式都是3D mesh格式，即物体被划分成若干个微小单元（三角形，或其他形状）

2021-12-07 09:43:29 1522

原创 PointSetGeneration- 点云生成论文阅读笔记

A Point Set Generation Network for 3D Object Reconstruction from a Single Image（很多图片与公式上传略麻烦，详细笔记见自己的KeYan report）文章链接：https://arxiv.org/abs/1612.00603源码链接：https://github.com/fanhqme/PointSetGeneration通过深度神经网络生成3D数据已在研究界引起了越来越多的关注。PointSetGeneration网络

2021-12-07 09:30:57 913 1

原创半监督笔记-2

接上篇，同样引：https://blog.youkuaiyun.com/shangjiankeji/article/details/1126814502.3 Π Model & Temporal ensembling Model: Temporal ensembling for semi-supervised learning, 2017这篇研究工作由 NVIDIA 的研究小组完成，其中包含两个半监督算法框架，分别是 Π Model和Temporal ensembling Model, 二者都可以认为是 Γ

2021-12-01 11:02:46 306

原创半监督笔记-1

引：LadderNet:https://blog.youkuaiyun.com/shangjiankeji/article/details/112681450https://zhuanlan.zhihu.com/p/54719656自编码器：https://blog.youkuaiyun.com/qq_24407657/article/details/82499677https://www.sohu.com/a/224516673_999921811. Γ Model：Semisupervised learning

2021-11-25 15:08:55 1048

qq_42563807的博客