自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 python-print

1、print()函数可以输出一个值,也可以同时输出多个值,如果输出多个值,这多个值之间用半角逗号隔开;2、sep参数指定输出的多个值之间的间隔符,如不指定,则默认间隔符是一个半角空格;3、end参数指定输出所有的值之后再输出什么符号,如不指定,则默认输出一个换行符;参考:https://www.modb.pro/db/547994。4、file参数指明输出到文件还是到屏幕,默认是输出到屏幕;5、flush参数指明是否立即将输出缓冲区的内容全部输出。

2025-01-23 10:55:02 152

原创 文档智能:OCR+Rocketqa+layoutxlm <Rocketqa>

First,Second,Third,采用的一系列优化策略:跨批次负采样(Cross-batch Negatives)、去噪的强负例采样(Denoised Hard Negatives)和数据增强(Data Augmentation)等。用于解决训练过程中负例样本不足,和,存在大量错误负例样本的问题。

2025-01-15 11:26:04 681

原创 Swin transformer 论文阅读记录 & 代码分析

该篇文章,是我解析 Swin transformer 论文原理(结合pytorch版本代码)所记,图片来源于源paper或其他相应博客。代码也非原始代码,而是从代码里摘出来的片段,配上简单数据,以便理解。当然,也可能因为设置数据不当,造成误解,请多指教。刚写了一部分。先发布。希望多多指正。Figure 1.

2024-12-19 17:07:33 1276 1

原创 Qwen 论文阅读记录

QWEN 是一个全面的语言模型系列,包含参数数量不同的多个独立模型。and以上两句话可以根据下图综合理解:We then这些聊天模型在创建代理应用方面,具备先进的工具使用和规划能力,即使在执行如使用代码解释器等复杂任务时,与更大的模型相比也展现出了令人印象深刻的性能。它们还可以充当通用代理,与外部系统、工具和模型协作,以实现人类设定的目标。

2024-12-10 16:08:30 1600 1

原创 文档智能:OCR+Rocketqa+layoutxlm<LayoutLMv2>

预训练的模型从不同的文档类型中吸收跨模态知识,从而保持了这些布局和样式之间的局部不变性。由于空间位置是连续的(例如,图像中的像素坐标),但模型参数(包括偏置项)是离散的(存储在内存中的数值),因此我们需要一种方法来将连续的空间位置映射到离散的参数上。即,在一个具有多头注意力的模型中,每个注意力头都有自己的独特偏置项,但这些偏置项在模型的所有编码器层之间是共享的。在深度学习和计算机视觉的上下文中,偏置项通常被设计为与模型中的其他参数(如权重)一起学习和优化,但它们并不直接对应于输入数据的连续特征或位置。

2024-09-12 16:46:20 1367

原创 语音识别-paddlespeech-流程梳理

ASR-PaddleSpeech

2024-05-13 16:36:18 1281

原创 GAN反演+老照片修复

一个自然的想法是在GAN的图像空间寻找一张灰度化后与目标图片一致的图片,由于GAN倾向于输出自然的图片,因此找到的这张图会有自然的颜色。即,如果我们要复原图像A,则可以训练GAN网络,使其生成一个跟图像A的GroundTruth相似度很高很高的图像,该生成图像即为我们修复后的图像;用GAN模型近似表征自然图像分布,在恢复图像时,对于失真图,要恢复它,其实就是要在GAN表征的自然图分布中找到一个跟失真图最相似的图。提出了GFP-GAN,利用丰富多样的先验,将其封装在一个预训练的人脸中,用于模糊人脸修复。

2024-04-17 15:46:05 1432

原创 人脸识别:Arcface--loss+code

之前只接触过传统方法的人脸识别算法,本以为基于深度学习的方法会使用对比损失之类的函数进行训练,但是Arcface算法基于softmax进行了创新,本文未深究其详细的loss公式原理,在大致明白其方向下,运行了代码,记录如下。因为使用的.pt应该是要求128*128的尺寸,我仅是将图片直接reshape,并未进行其他操作,故而得分都不是很高,但是简单的设置阈值,也能得到正确的结果;表示类别得分 f 的向量的第 j 个元素 ( j ∈ [1, K],K 是类的数量),N 是训练数据的数量。经常用于相似度计算。

2024-04-02 17:39:32 2230

原创 反向传播--雅可比矩阵

第一层是输入层,包含两个神经元i1​i2​和截距项b1​;第二层是隐含层,包含两个神经元h1​h2​和截距项b2​;第三层是输出o1​o2​;每条线上标的wi​是层与层之间连接的权重,激活函数采用sigmoid函数;

2024-03-27 16:47:24 1425 1

原创 Sklearn相关介绍及代码示例-1

无监督模型包括,各种聚类分析(KMeans, DBSCAN)、主成分分析 (PCA)、独立成分分析 (ICA)、隐含狄利克雷分配 (LDA) 等等;

2024-03-13 11:59:38 607 1

原创 信息增益-决策树

信息增益-离散型

2024-03-05 18:02:55 1077 2

原创 I/O理论-1

TextIOBase ABC是 IOBase 的另一个子类,它处理字节表示文本的流,并处理字符串之间的编码和解码。由于要打印的参数会被转换为文本字符串,因此print()不能用于二进制模式的文件对象。所有流对提供给它们的数据类型都很敏感。1、print()函数可以输出一个值,也可以同时输出多个值,如果输出多个值,这多个值之间用半角逗号隔开;所有非关键字参数都会被转换为字符串,并会被写入到流,以sep分割,并在末尾加上end。三种主要的 I/O类型分别为: 文本 I/O, 二进制 I/O 和 原始 I/O。

2024-03-01 17:03:49 891 3

原创 wav2vec--

Wav2vec: Unsupervised Pre-training for Speech Recognition该模型非完整的ASR,而是一个将wav通过标记的、未标记的数据,通过无监督的方式进行训练,得到可以送入ASR中的向量;以提升ASR的准确率;当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能。最近,在标注数据缺少的情况下,神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练,再在数据量受限的目标数据上fine-tune来提高

2022-02-07 15:18:41 6450 2

原创 语音识别-初识

ASRThttps://blog.ailemon.net/2018/08/29/asrt-a-chinese-speech-recognition-system/ASR-Automatic Speech Recognition &&&&&&&&&& Paddle Speech涉及数据集:Aishell, wenetspeech, librispeech…涉及方法:① DeepSpeech2: End.

2022-01-26 10:49:45 3572

原创 Keras-Yolo v3 代码对应含义

pred_yolo_1 = _conv_block(x, [{'filter': 1024, 'kernel': 3, 'stride': 1, 'bnorm': True, 'leaky': True, 'layer_idx': 80}, {'filter': (3*(5+nb_class)), 'kernel': 1, 'stride': 1, 'bnorm': False, 'leaky': False, 'layer_idx': 81

2021-12-20 15:00:42 489

原创 Yolo v1 v2

yolov1 v2

2021-12-17 14:33:20 258

原创 多标签学习-多任务学习

参考搬运:https://blog.youkuaiyun.com/cdknight_happy/article/details/105427428行人属性识别(Pedestrian Attribute Recognition, PAR),目的是从输入图像中挖掘行人的属性信息。行人属性识别挖掘得到的是行人的高层语义信息,这些信息和低层特征不同,对视角变换和成像条件的变化比较鲁棒。计算机视觉领域的很多算法,如ReID和行人检测,都会集成行人的属性信息以提升算法的鲁棒性。受视角、光线、分辨率等因素的影响,它仍然是一个

2021-12-15 09:22:22 5037

原创 loss-FSCE 小样本识别

FSCE: Few-Shot Object Detection via Contrastive Proposal Encodingcontrastive predictive coding ------------ CPC领域对比预测编码Contrastive Proposal Encoding (CPE) LossN个 ---- {z, u, y}z----featureu----IOU scorey----label of GT公式4----筛选 BBOX 的 IOU;公式3

2021-12-14 10:32:03 4061 1

转载 点云简单介绍

什么是点云,如何获得点云。A. 点云包含了很多信息,除了3维坐标数据之外,还可能包括颜色、分类值、强度值、时间等。B. 点云数据可以由多种方法获得:直接由Lidar激光扫描出点云数据。不同角度的2D图像组合成点云由深度图(Depth Map)生成点云,即将图像坐标+深度信息从图像坐标系转换为世界坐标系。C. 点云和深度图都会出现深度信息的缺失,因为往往传感器只能捕捉物体表面的信息。D. obj .off .ply格式都是3D mesh格式,即物体被划分成若干个微小单元(三角形,或其他形状)

2021-12-07 09:43:29 1451

原创 PointSetGeneration- 点云生成论文阅读笔记

A Point Set Generation Network for 3D Object Reconstruction from a Single Image(很多图片与公式上传略麻烦,详细笔记见自己的KeYan report)文章链接:https://arxiv.org/abs/1612.00603源码链接:https://github.com/fanhqme/PointSetGeneration通过深度神经网络生成3D数据已在研究界引起了越来越多的关注。PointSetGeneration网络

2021-12-07 09:30:57 822 1

原创 半监督笔记-2

接上篇,同样引:https://blog.youkuaiyun.com/shangjiankeji/article/details/1126814502.3 Π Model & Temporal ensembling Model: Temporal ensembling for semi-supervised learning, 2017这篇研究工作由 NVIDIA 的研究小组完成,其中包含两个半监督算法框架,分别是 Π Model和Temporal ensembling Model, 二者都可以认为是 Γ

2021-12-01 11:02:46 260

原创 半监督笔记-1

引:LadderNet:https://blog.youkuaiyun.com/shangjiankeji/article/details/112681450https://zhuanlan.zhihu.com/p/54719656自编码器:https://blog.youkuaiyun.com/qq_24407657/article/details/82499677https://www.sohu.com/a/224516673_999921811. Γ Model:Semisupervised learning

2021-11-25 15:08:55 988

原创 正则表达式-python

re.match函数re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回None。函数语法:re.match(pattern, string, flags=0)#!/usr/bin/python# -*- coding: UTF-8 -*- import reprint(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配print(re.match('com', 'www.run

2021-11-24 16:18:05 617

原创 np.nonzero(a)

np.nonzero(a)返回数组a中非零元素的索引值数组。(1)只有a中非零元素才会有索引值,那些零值元素没有索引值;(2)返回的索引值数组是一个2维tuple数组,该tuple数组中包含一维的array数组。 其中,一维array向量的个数与a的维数是一致的;(3)索引值数组的每一个array均是从一个维度上来描述其索引值。比如,如果a是一个二维数组,则索引值数组有两个array,第一个array从行维度来描述索引值;第二个array从列维度来描述索引值。(4) 该np.transpose(n

2021-11-24 10:19:18 154

原创 Continue and Break

for letter in 'Python': # 第一个实例 if letter == 'h': continue print ('当前字母 :', letter) var = 10 # 第二个实例while var > 0: var = var -1 if var == 5: continue print ('当前变量值 :', var)print ("Good

2021-11-24 09:36:54 630

原创 base64

base64base64是一种编码方式,通常用于把二进制数据编码为可写的字符形式的数据。# 想将字符串转编码成base64, 要先将字符串转换成二进制数据import base64url = "https://www.cnblogs.com/songzhixue/"bytes_url = url.encode("utf-8")str_url = base64.b64encode(bytes_url) # 被编码的参数必须是二进制数据print(str_url) # b'aHR0cH

2021-11-23 15:03:11 5826

转载 FFmpeg

FFmpegFFMPEG中结构体很多。最关键的结构体可以分成以下几类:a) 解协议(http, rtsp, rtmp, mms)AVIOContext,URLProtocol,URLContext主要存储视音频使用的协议的类型以及状态。URLProtocol存储输入视音频使用的封装格式。每种协议都对应一个URLProtocol结构。(注意:FFMPEG中文件也被当做一种协议“file”)b) 解封装(flv, avi, rmvb, mp4)AVFormatContext主要存储视音频封装格式

2021-11-16 11:19:07 105

原创 Python 引入上级目录

Python 引入上级目录DeployPythonrec.pyUtilsPredictor.py从rec.py里引用Utils,使用了:import osimport sys__dir__ = os.path.dirname(os.path.abspath(__file__))sys.path.append(os.path.abspath(os.path.join(__dir__, '../')))from utils.predictor import PredictorDepl

2021-11-09 15:57:33 2705

原创 Dice相似系数(Dice Similarity Coefficient, DSC)

Dice相似系数(Dice Similarity Coefficient, DSC)分母可以解析为:FP + TP = 所有分类为阳性的样本TP + FN = 真阳 + 假阴 = 所有真的是阳性的样本

2021-11-08 15:41:32 14932

原创 [:, :, :]

Torch.Tensorimport torchA = torch.tensor([[[104.0070]], [[116.6688]], [[122.6789]]]) #(3,1,1)print('--------this is the first output')print(A[:,:,-1])'''tensor([[104.0070], [116.6688], [122.6789

2021-10-27 09:17:50 624

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除