- 博客(36)
- 资源 (81)
- 收藏
- 关注
原创 LoRA指令微调
指令微调 (Instruction Tuning) 是指使用自然语言形式的数据对预训练后的大语言模型进行参数微调,这一术语由谷歌研究员在2022年的一篇ICLR论文中正式提出。在另外一些参考文献中,指令微调也被称为有监督微调 (Supervised Fine-Tuning) 或多任务提示训练 (Multi-task Prompted Training)。
2025-02-15 17:31:06
1029
原创 (多模态系列三)EDGE: Editable Dance Generation From Music
官网:https://google.github.io/aistplusplus_dataset/factsfigures.htmlAIST++舞蹈数据集是基于AIST Dance Video DB构建的,通过多视角视频,估计相机参数、3D人体关键点、3D人体舞蹈运动序列。(1)提供了10.1M张图像的3D人体关键点标注和相机参数,涵盖9个视角的30个不同主体,是现有最大的3D人体关键点标注数据集。
2024-08-09 15:16:51
761
原创 (多模态系列二)CLIP:Learning Transferable Visual Models From Natural Language Supervision
CLIP是OpenAI在2021年2月发表的一篇文章,其全称为Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法。CLIP用文本作为监督信号来训练可迁移的视觉模型,使得最终模型的zero-shot效果堪比ResNet50,泛化性非常
2024-07-19 17:44:08
1031
原创 (多模态系列一)音频算法基础
在《Ai choreographer: Music conditioned 3d dance generation with aist++》论文中,给定一个音乐片段,作者使用 Librosa提取音乐2D特征图,维度(L,35),其中 L 是帧数,35 是音乐特征通道,其中包括:1维的envelope、20维的MFCC、12维的chroma、1维的one-hot peaks、1维的one-hot beats。在四拍子(4/4)中,第一拍是明确的强拍,它标志着小节的开始,具有最强的力度和最重要的地位。
2024-07-19 16:10:12
940
原创 Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields
Tri-MipRF是ICCV2023年的Oral和Best Paper Finalist,研究单位是字节跳动、清华大学和中国科学院计算技术研究所,文章主要思想是,将Mip-NeRF和Tri-plane进行结合,能够实现神经辐射场的快速重建,以及抗锯齿、高保真的实时渲染。
2023-12-28 16:41:48
1483
6
原创 TensoRF: Tensorial Radiance Fields
TensoRF是第一个从张量的角度来看待辐射场建模,并提出了辐射场重建作为一个低秩张量重建的问题,整体思路非常巧妙,而且数学原理丰富,理论扎实。美中不足在于代码里的工程trick较多,特别是涉及到alpha mask的更新和体素上采样,细节非常复杂,还是不够简洁优美。从实验效果来看,TensoRF的渲染效果其实并不算特别惊艳,但确实是大幅减少了NeRF的训练时间,并且降低了渲染所需要的显存,总体而言是令人眼前一亮的工作。
2023-12-05 17:04:36
1858
原创 In-Place Scene Labelling and Understanding with Implicit Scene Representation
ICCV 2021 oral
2023-07-24 17:34:25
403
4
原创 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
NeRF ECCV2020 oral
2023-07-21 22:13:42
1902
2
原创 Vision Transformer原理分析
Vision Transformer是2021年Google团队提出的将Transformer应用在图像分类的模型,因为其模型简单、效果好、可扩展性强,成为CV领域的里程碑著作,也引爆了后续相关研究。
2023-06-25 00:26:36
612
原创 双目立体匹配_StereoNet网络
传统立体匹配算法通常选取立体校正后的左视图作为参考图像,通过在目标图像上进行行搜索寻找同名点并计算视差,将每个像素的视差进行保存,得到单通道的视差图。距离相机越近的空间点,在视差图中灰度值越大。传统立体匹配算法将双目立体匹配问题转化寻找最小化能量函数的图D问题,此处的D可以时深度图或视差图,因此在深度学习领域立体匹配又被成为视差估计、深度估计。
2022-11-07 20:06:31
6294
14
原创 3D视觉(六):PnP问题(pespective-n-point)
3D视觉(六):PnP问题(pespective-n-point)PnP问题,是指已知3D点(x, y, z)及其在相机上的投影(u,v),求相机位姿变换R、T。投影方程可表示为:这里K为相机内参矩阵,是已知的。我们要做的就是,从n对这样的2D-3D对应关系中,恢复出相机姿态变换,即旋转矩阵R和平移向量t。文章目录3D视觉(六):PnP问题(pespective-n-point)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:
2021-12-28 10:28:37
12139
原创 3D视觉(五):对极几何和三角测量
3D视觉(五):对极几何和三角测量对极几何(Epipolar Geometry)描述的是两幅视图之间的内在射影关系,与外部场景无关,只依赖于摄像机内参数和这两幅试图之间的的相对姿态。文章目录3D视觉(五):对极几何和三角测量一、对极几何二、三角测量三、实验过程四、源码五、项目链接一、对极几何假设我们从两张图像中得到了一对配对好的点对,如果有若干对这样的匹配点对,就可以通过这些二维图像点的对应关系,恢复出在两帧之间的摄像机的运动。从代数角度来分析这里的几何关系。在第1帧的坐标系下,设P的空间位置为
2021-12-15 11:08:39
4947
3
原创 3D视觉(四):ORB特征提取与匹配
3D视觉(四):ORB特征提取与匹配提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录3D视觉(四):ORB特征提取与匹配前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础
2021-12-13 16:30:00
6375
原创 3D视觉(三):双目摄像头的标定与校正
3D视觉(三):双目摄像头的标定与校正对于双目摄像头而言,除了需要分别标定左目摄像头的内参矩阵K1、畸变系数D1、右目摄像头的内参矩阵K2、畸变系数D2,还需要标定左右目对应的旋转矩阵R和平移向量T。当双目摄像头固定在一个平面上时,旋转矩阵R可近似为一个单位阵,平移向量T的欧式范数即为基线长度b。我们可以把两个相机都看作针孔相机,它们是水平放置的,意味着两个相机的光圈中心都位于x轴上,两者之间的距离称为双目相机的基线b,它是双目相机的重要参数。通过粗略测量可看出,这里基线b的长度在0.06m-0.07
2021-12-10 15:58:05
42819
32
原创 3D视觉(二):单目摄像头的标定与校正
3D视觉(二):单目摄像头的标定与校正文章目录3D视觉(二):单目摄像头的标定与校正1、相机模型一、机器车坐标系到相机坐标系二、相机坐标系到归一化平面坐标系三、归一化平面坐标畸变四、归一化平面坐标系到像素坐标系2、单目摄像头标定3、实验结果4、源码1.引入库2.读入数据总结相机将三维世界中的坐标点(单位为米)映射到二维图像平面(单位为像素),这个过程可用针孔相机模型和透镜畸变模型来刻画。这两个模型能够把外部的三维点投影到相机内部成像平面,构成相机的内参数。1、相机模型假设存在一个机器小车,以小车
2021-12-08 10:10:22
11316
1
原创 3D视觉(一):双目摄像头的调用
3D视觉(一):双目摄像头的调用文章目录3D视觉(一):双目摄像头的调用1、计时器 chrono2、单目摄像头的调用3、双目摄像头的调用参考1、计时器 chronochrono是C++11新加入的方便时间日期操作的标准库,它既是相应的头文件名称,也是std命名空间下的一个子命名空间,所有时间日期相关定义均在std::chrono命名空间下。通过这个新的标准库,可以非常方便进行时间日期相关操作。#include <iostream>#include<unistd.h> #
2021-12-07 11:05:43
2541
原创 深度学习卷积神经网络从入门到精通
深度学习卷积神经网络从入门到精通—阅读笔记计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。人们致力于建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。文章目录深度学习卷积神经网络从入门到精通---阅读笔记第一章:概述第二章:预备知识第三章-第七章:图片分类模型第八章:目标检测模型第九章:语义分割模型第十章:特殊卷积神经网络模型第一章:概
2021-09-10 17:59:43
1579
原创 STN_空间变换网络
STN_空间变换网络深度卷积网络虽然已经在很多领域取得了较好的效果,但这些模型依旧十分脆弱。例如,对一幅图像进行平移、旋转和缩放等操作后,会使原有的模型识别准确度下降。这种现象可以理解为深度卷积网络的一个通病,一般可以从两方面入手:一是样本多样性,数据增强,进行更多的变换,令模型见多识广,可以处理各种角度的图片。二是样本预处理,一般会采用仿射变换对现有的图片进行修正,令后面的卷积网络专门负责处理调整后的标准图片,使模型训练起来更容易。空间变换网络(Saptial Transformer Networ
2021-08-23 17:16:34
4181
3
原创 OCR_文字识别
OCR_文字识别OCR(Optical Character Recognition),指通过光学技术对字符进行识别。1929年,德国科学家Tausheck首先提出了OCR,并为此申请了专利。这种技术直到计算机诞生之后才变成了现实,通过光学技术对字符进行扫描、识别,最后转化为计算机的内编码。文章目录OCR_文字识别一、随机生成模拟数据集二、多尺度输出网络三、训练过程四、深入思考五、源码六、相关链接一、随机生成模拟数据集常用的验证码生成库有captcha和gvcode。captcha库支持文字验证码和语
2021-08-18 20:42:19
882
原创 PSPNet :语义分割
PSPNet:语义分割随着卷积神经网络在目标检测任务上的推进,它也开始被用于更精细的图像处理任务:语义分割和实例分割。目标检测只需要预测图像中每个对象的位置和类别,语义分割还要把每个像素都进行分类,而实例分割的任务则更难,要进一步把每个对象的不同实例都区分开。图像语义分割(semantic segmentation),从字面意思上理解就是让计算机根据图像的语义来进行分割。语义分割是对图像中的每一个像素进行分类,目前广泛应用于医学图像与无人驾驶等。语义在语音识别中指的是语音的意思,在图像领域,语义指的是
2021-08-07 15:37:45
5565
2
原创 CRNN:文本序列识别
CRNN:文字序列识别文字序列识别是图像领域的一个常见问题。一般来说,从自然场景图片中识别文字需要两步,首先定位图像中的文字位置,然后对文字序列进行识别。文字检测:解决的问题是哪里有文字,文字的范围有多长。文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。文章目录CRNN:文字序列识别一、相关背景介绍二、CRNN模型结构三、实验结果四、深入思考五、源码总结一、相关背景介绍常用的文字识别算法主要有两种框架,本文主要介绍第一种框架:1、CN
2021-08-02 14:40:36
3154
原创 Opencv车牌号字符分割
Opencv车牌号字符分割字符分割的任务,就是把多字符图像中的每个字符从整体图像中分割出来,使其成为单个字符图像,为下一步的单个字符的图像识别做准备。字符分割是字符识别的基础,字符分割的质量直接影响到字符识别的效果。文章目录Opencv车牌号字符分割一、算法流程二、效果展示三、源码四、项目链接一、算法流程输入原始图片,将其resize到(320, 100)尺寸,灰度化处理:利用cv2.bilateralFilter函数,在保持边界清晰的情况下有效去除噪声:利用cv2.Canny函数,检
2021-06-24 17:34:01
2567
原创 YOLOv3_目标检测
YOLOv3_目标检测YOLOv1最初是由Joseph Redmon实现的,和大型NLP transformers不同,YOLOv1设计的很小,可为设备上的部署提供实时检测速度。YOLO-9000是Joseph Redmon实现的第二个版本YOLOv2目标检测器,它对YOLOv1做了很多技巧上的改进,并强调该检测器能够推广到检测世界上任何物体的能力。YOLOv3对YOLOv2做了进一步的改进,引入多尺度特征融合,针对不同网格尺寸并行处理,大大提升了不同尺寸目标的检测精度。文章目录YOLOv3_目标检
2021-06-19 17:14:47
3238
原创 Tiny_Yolov1_VOC2007目标检测
Tiny_Yolov1_VOC2007目标检测相较于YOLO模型,Tiny_YOLO版本将网络压缩了许多,不管是训练还是移植速度都比较快,更加适用于业界应用。文章目录Tiny_Yolov1_VOC2007目标检测一、 Tiny_Yolov1结构二、VOC2007数据集上的训练过程三、检测效果四、深入思考五、源码六、相关链接一、 Tiny_Yolov1结构网络输入:(448,448,3)第一轮处理:(1)Conv2D(16, (3, 3), padding=‘same’, use_bias=Fal
2021-05-26 17:17:35
951
原创 OpenCV-车牌号检测
OpenCV-车牌号检测在github上看到一个小项目觉得挺有意思:借助传统图像处理技巧,通过opencv进行车牌号位置检测。虽然我实际测试后效果不太好,但也能学到另一种检测处理思路。原作者链接:https://github.com/Aqsa-K/Car-Number-Plate-Detection-OpenCV-Python文章目录OpenCV-车牌号检测一、传统图像处理目标检测二、效果三、深入思考四、源码五、项目链接一、传统图像处理目标检测输入一张原始图片,要求检测出车牌号位置。第1步:对图
2021-05-25 20:47:09
1854
1
原创 YOLO-v1-目标检测
YOLO-v1-目标检测目标检测是一件比较实际的且具有挑战性的计算机视觉任务,可以看成图像分类与定位的结合。给定一张图片,要求能够识别出图片中的目标并给出其具体位置。相比于图片分类问题,目标检测问题更加复杂。针对目标检测,一个很自然的想法就是:将图片输入到深度网络,让网络输出目标物体的中心坐标比例和长宽比例(x,y,w,h)。这种做法原理上是可行的,因为前期可以通过卷积、池化不断提取图片的深度特征,后期再利用全连接对提取到特征进行编码,就可以让它映射成我们想要的位置坐标。但如果要对多目标进行检测,上
2021-05-21 20:59:27
537
原创 YOLOv1-车辆位置检测
YOLOv1-车辆位置检测Vehicle Detection,在自动驾驶领域、车牌号识别系统中非常重要。其实可以看成一个单类别目标检测问题,对YOLOv1算法做一些调整:训练数据集true_y调整为(7,7,5)、网络输出pre_y调整为(7,7,10)、loss损失函数只保留location_loss、confidence_loss,而把class_loss注释掉。文章目录YOLOv1-车辆位置检测一、数据集简介二、YOLOv1训练过程三、实验结果四、源码五、项目链接一、数据集简介Stanfo
2021-05-17 09:48:00
1346
原创 RCNN_人脸检测
RCNN_人脸检测1966年,Marvin Minsky让他的学生Gerald Jay Sussman花一个暑假的时间,把相机连接到电脑上并使得电脑能描述出看到的东西,这就是目标检测的由来。2014年,作者RBG提出RCNN模型,创造性地使用Selective Search方法代替滑动窗口策略,并利用CNN提取图像特征,成为第一个可以真正工业级应用的解决方案,掀起了目标检测领域的研究热潮。文章目录RCNN_人脸检测前言一、数据集准备二、网络结构三、区域检测四、模型效果五、对结果的一些深入思考六、源码
2021-04-23 20:57:51
1286
1
原创 Selective Search算法-候选框生成
Selective Search算法—候选框生成相比于滑动搜索策略,Selective Search算法采用启发式的方法,过滤掉图像中很多断裂的子区域,候选生成所需的目标区域(Region Proposal),计算效率大幅提升。文章目录Selective Search算法---候选框生成引论:学习算法前的问题思考一、Selective Search算法实现步骤二、Selective Search算法流程图三、代码2.读入数据总结引论:学习算法前的问题思考Ques:如何粗略地度量两张图片的相似度?
2021-04-20 10:44:05
2240
原创 Keras-VGG16-图片分类
Keras-VGG16-图片分类VGG模型的名称,来源于牛津大学的Oxford Visual Geometry Group,该网络模型是他们在ILSVRC 2014上的相关工作,主要是证明了增加网络的深度能够在一定程度上影响网络最终的性能。目录Keras-VGG16-图片分类1、原始数据集2、VGG16网络细节3、模型求解结果4、对模型的一些深入思考5、具体代码6、项目链接1、原始数据集原始图片文件夹train:包含1200张猫的图片,1200张狗的图片,尺寸不尽相同。将2400张rgb
2021-04-16 11:01:07
3536
2
原创 Keras-Alexnet-图片分类
Keras-Alexnet-图片分类在自动驾驶、医学图像、目标检测领域,语义分割发挥着巨大的作用。相比于yolo、ssd等目标检测算法,Unet可以实现对图像中每个像素点的分类,精度大大提升。语义分割,简单来说就是给出一张图,分割出图像中所需物体的一个完整准确的轮廓,其实也就相当于现实中的“抠图”。但这里“抠图”的难度在于,不是由人来抠,而是让机器学会自动帮我们抠。并且要求“抠图”的像素点要很精确,这个是人眼达不到的。目录Keras-Alexnet-图片分类1、原始数据集2、U-net网络细节3、模
2021-04-15 19:48:46
1110
原创 Keras-Unet-语义分割
Keras-U-net-语义分割在自动驾驶、医学图像、目标检测领域,语义分割发挥着巨大的作用。相比于yolo、ssd等目标检测算法,Unet可以实现对图像中每个像素点的分类,精度大大提升。语义分割,简单来说就是给出一张图,分割出图像中所需物体的一个完整准确的轮廓,其实也就相当于现实中的“抠图”。但这里“抠图”的难度在于,不是由人来抠,而是让机器学会自动帮我们抠。并且要求“抠图”的像素点要很精确,这个是人眼达不到的。目录Keras-U-net-语义分割1、原始数据集2、U-net网络细节3、模型求解
2021-04-14 16:58:05
2079
原创 Keras-LeNet5-图片分类问题
Keras-LeNet5-图片分类问题1、原始数据集2、LeNet5网络细节3、对模型结果的深入思考4、具体代码5、项目链接1、原始数据集下载mnist.pkl.gz数据集,得到raw_train, raw_validation, raw_test。raw_train是一个三维列表,第1个分量是(50000,784)的列表,表示50000个样本,每个样本是(28,28)图片拉直成的向量。第2个分量是50000大小的一维列表,记录每个样本的数字。raw_validation是一个三维列表,第1个分量是
2021-04-12 11:06:44
680
Dispnet双目匹配深度估计
2022-10-15
双目立体匹配_SGM算法
2022-10-10
Siamese.zip
2022-01-14
PnP问题-头部姿态估计.zip
2021-12-28
对极几何_三角测量_双目视觉.zip
2021-12-15
双目视觉标定与校正.zip
2021-12-10
单目摄像头标定.zip
2021-12-08
目标跟踪Sort算法_车流量统计.zip
2021-11-30
卡尔曼滤波器原理实现.zip
2021-11-30
tiny_yolov4.zip
2021-11-19
图像去雾算法_暗通道先验理论
2021-11-15
多目标跟踪_车流量统计
2021-11-12
Github_YOLOv3_DETRAC.zip
2021-09-26
Github_YOLOv1_VOC_2007.zip
2021-09-26
YOLOv4_车牌号检测.zip
2021-09-06
YOLOv4_VOC.zip
2021-09-04
STN_CNN.zip
2021-08-23
crnn_验证码识别.zip
2021-08-20
OCR_验证码识别.zip
2021-08-18
车牌号识别项目.zip
2021-08-16
PSPNet_语义分割.zip
2021-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人