
人工智能
文章平均质量分 77
页页读
这个作者很懒,什么都没留下…
展开
-
【Transformer位置编码】Transfomrer中的PE(Position Encoding, 位置编码)为什么起作用?
这里的pos代表序列中某个单词的位置,或者图像中某个patch的位置,i 代表维度的index,假设Transfomer模型隐藏层的维度为1024,则 i 的范围为 0 ~ 1024,因为相对位置较近时,对于波长小的sin函数敏感,x 变化一点点,sin(x)就变化很多,而对于波长较大的sin函数来说,位置较近的短距离变化根本看不出来。在实际应用中pos被归一化到-1~1到范围内,所以这里我们仅仅参考上图中的0~1的曲线变化即可。位置编码应该是该模型的核心,如果位置编码应用不对,则不收敛是正常的。原创 2025-02-10 15:33:48 · 567 阅读 · 0 评论 -
【cv::triangulatePoints】其中的投射矩阵P(3x4)是怎么得到的?(内外参数K[R|t]到最终矩阵的变换过程)
通过内参矩阵和外参矩阵的组合,我们得到了用于描述三维点到二维图像平面投影的投影矩阵P\mathbf{P}P。这个矩阵在多视图几何和计算机视觉的应用中至关重要,特别是在三维重建和相机校准中。原创 2024-08-08 20:14:43 · 1651 阅读 · 0 评论 -
【Savitzky-Golay 滤波器】scipy.signal.savgol_filter 的使用
是 SciPy 库中用于数据平滑的函数。Savitzky-Golay 滤波器通过多项式拟合来平滑数据,并保留信号的高频特性,比其他平滑方法(如移动平均)更能保留信号的特征。以下是对。原创 2024-06-25 14:03:07 · 2118 阅读 · 1 评论 -
【Scipy】scipy.interpolate.interp1d 简介及使用示例
是 SciPy 库中用于一维插值的函数。它通过已知数据点创建一个插值函数,从而可以在这些点之间估算出新的数据点。interp1d在数据处理和分析中非常有用,尤其是在需要平滑数据或对离散数据进行插值的情况下。原创 2024-06-25 13:59:05 · 2389 阅读 · 0 评论 -
【小技巧】机器学习中可视化高维向量的两种方法PCA和t-SNE,以及其原理介绍和代码示例(附代码)
为了可视化高维数据(比如你的256维向量)在低维空间(通常是2D或3D)的分布,常用的方法包括主成分分析(PCA)和t-SNE。这两种方法可以帮助我们理解数据在高维空间中的内在结构。下面,我会展示如何使用Python的库和matplotlib来可视化这些向量。我将使用PCA和t-SNE两种方法来降维,并在3D平面上展示结果。如果你有标签数据,这将有助于我们看到不同簇的分布。import os""""""# 使用PCA将数据降到3维# 使用t-SNE将数据降到3维。原创 2024-04-12 13:58:12 · 2486 阅读 · 0 评论 -
【查漏补缺】异常检测是生成模型吗?是无监督模型吗?常用的模型有哪些?
自编码器通常由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器的任务是将输入数据压缩成一个低维表示(即潜在空间),而解码器则尝试从这个低维表示中重构原始数据。编码器:可能包含多层,每一层都进一步压缩数据,直到达到一个编码(低维表示)。解码器:结构通常与编码器镜像对称,逐层将编码扩展回原始数据的维度。原创 2024-03-26 10:24:34 · 723 阅读 · 0 评论 -
【概率基础】从概率角度去解释回归和分类的主要区别是什么?
虽然从理论上讲,在回归任务中使用KL散度作为损失函数是可能的,但由于其在处理连续目标变量时的复杂性、对特定概率分布假设的需求,以及在实际应用中提供的优势有限,因此不如MSE或MAE等直接衡量预测误差的损失函数来得普遍和实用。在大多数回归任务中,直接衡量预测值和真实值之间差异的损失函数更为直接和高效。原创 2024-03-25 20:04:58 · 1298 阅读 · 0 评论 -
【概率基础】生成式模型与判别式模型最大的区别是什么?两者可以互相转化吗?
生成式模型与判别式模型最大的区别在于它们对数据的建模方式和目标。PXYPY∣XXY简而言之,生成式模型和判别式模型的最大区别在于它们的目标和方法:生成式模型试图理解数据如何生成,而判别式模型专注于如何根据输入数据进行有效的预测。原创 2024-03-25 20:03:36 · 1485 阅读 · 0 评论 -
【基础知识】熵、交叉熵、相对熵(KL散度) 是什么以及它们之间的区别
熵(Entropy)和交叉熵(Cross-Entropy)是信息论中的两个基本概念,它们在机器学习、深度学习等领域有着广泛的应用。原创 2024-03-14 10:16:53 · 4244 阅读 · 0 评论 -
【基础知识】什么是 PPO(Proximal Policy Optimization,近端策略优化)
PPO(Proximal Policy Optimization,近端策略优化)是一种强化学习算法,由John Schulman等人在2017年提出。PPO属于策略梯度方法,这类方法直接对策略(即模型的行为)进行优化,试图找到使得期望回报最大化的策略。PPO旨在改进和简化以前的策略梯度算法,如TRPO(Trust Region Policy Optimization,信任域策略优化),它通过几个关键的技术创新提高了训练的稳定性和效率。原创 2024-03-05 11:39:22 · 8475 阅读 · 0 评论 -
【基础知识】VAE 变分推断公式|变分分布|先验分布|后验分布|KL散度|边缘似然
在VAE的上下文中,先验分布提供了对潜在变量应该如何分布的假设,而后验分布则是给定观测数据后,对潜在变量分布的更新。VAE的训练过程涉及到调整编码器和解码器(Decoder)的参数,以最小化重构误差(使解码器输出尽可能接近输入数据)和正则化项(通常是KL散度,使变分后验接近先验)。通过这种方式,VAE能够学习到能够生成数据的有效的潜在表示。原创 2024-03-05 11:35:12 · 3758 阅读 · 0 评论 -
【扩散模型基础知识】Diffusion Model中的重参数化和VAE中的重参数化的区别
在机器学习中,重参数化(reparameterization)是一种技术,用于改变模型参数的表达方式,以便能够更高效或者更稳定地进行优化。它在不同的模型中有不同的应用和含义。下面我们分别看看在扩散模型(Diffusion Models)和变分自编码器(Variational Autoencoder, VAE)中重参数化的含义及其区别。原创 2024-03-05 11:27:10 · 4663 阅读 · 1 评论 -
【基础知识】FID(Fréchet Inception Distance)公式及解释
FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。计算每个集合的特征向量的均值和协方差矩阵。设生成图像的特征向量的均值和协方差矩阵分别为。FID分数越低,表示生成图像与真实图像的分布越接近,通常认为生成的图像质量越高。的乘积的平方根,表示通过取两个矩阵乘积的特征值的平方根得到的矩阵。,真实图像的特征向量的均值和协方差矩阵分别为。原创 2024-03-05 11:20:03 · 7045 阅读 · 0 评论 -
【基础知识】协方差矩阵/协方差
协方差矩阵是一个描述多维随机变量线性相关性的矩阵。它是由各个随机变量的协方差组成的矩阵。在统计学和概率论中,协方差是用来衡量两个随机变量在它们的均值变化时是如何一起变化的。对于一组随机变量XX1X2...Xn,它们的协方差矩阵ΣΣiiXiΣiiVarXiΣijXiXjΣijCovXiXj协方差矩阵的大小是n×n,其中n是随机变量的数量。原创 2024-02-28 10:55:19 · 2013 阅读 · 0 评论 -
将conda环境打包成docker步骤
4步解决将conda环境打包成一个docker镜像原创 2023-09-05 15:28:35 · 6910 阅读 · 0 评论 -
SAM(segment anything) 中MaskDecoder过程图示
sam maskdecoder 图示原创 2023-07-27 14:36:55 · 630 阅读 · 0 评论 -
【论文笔记】PlenOctrees for Real-time Rendering of Neural Radiance Fields
该论文是结合了图形渲染领域常用的球谐函数(SH, Spherical Harmonics)和NeRF来建模的。首先应该了解NeRF.其次,应该读懂什么是球谐函数或者球面高斯函数.然后,我们都知道NeRF将ray marching上的x位置处的光照建模为density σ\sigmaσ 和 color ccc.在该论文中作者使用SH来建模位置x处的各个方向的光照情况,简单来说球谐函数可表示为多个基函数相加的形式,将所有基函数前面的系数拎出来就是所说的球谐函数的系数。这个系数是通过...原创 2022-07-06 18:02:39 · 2684 阅读 · 0 评论 -
【论文分享ppt】Point-NeRF: Point-based Neural Radiance Fields
point nerf原创 2022-07-05 16:55:51 · 918 阅读 · 1 评论 -
(shorthand) pixelNeRF: Neural Radiance Fields from One or Few Images
支持a sparse set of views,甚至支持仅仅一个view,也可以进行novel view synthesis。在NeRF的基础上加上了2D view image features. 加上这个可以学习scene的先验信息。这样做的好处:一,泛化性好;二,收敛快。除了加上image feature 外,nerf部分也做了改变,在网络一开始的位置就将direction一并输入,因为作者认为multi-view case,view .........原创 2022-07-04 21:43:13 · 533 阅读 · 1 评论 -
EfficientNeRF阅读笔记
In this paper, we present EfficientNeRF as an efficient NeRF-based method to represent 3D scene and synthesize novel-view images. Although several ways exist to accelerate the training or testing process原创 2022-06-30 19:53:29 · 1200 阅读 · 0 评论 -
shell脚本中执行conda activate envs命令注意事项
1. 使用source + 绝对路径在脚本中的写法示例:source ~/anaconda3/bin/activate pytorch这里按照你自己的安装路径写。我安装在了/home下2. 运行脚本一定使用bash,source才可使用示例:bash xxx.sh不能使用 sh...原创 2021-04-02 11:34:30 · 5595 阅读 · 0 评论 -
【论文笔记】End-to-end people detection in crowded scenes
论文地址:http://arxiv.org/abs/1506.04878Github:https://github.com/Russell91/ReInspecttensorflow版本:https://github.com/Russell91/TensorBox论文翻译:https://www.jianshu.com/p/897a36440175环境搭建:1.该工程仅仅支...原创 2019-09-03 17:40:02 · 1932 阅读 · 3 评论 -
import 同一目录下文件导入不进去的情况
原因:1,我的是由于版本原因,也就是主文件是python3的,被导入的是python2写的2,写出完整的导入文件的路径解决:1.更改了python2脚本中的print函数2.将 import AnnotationLib as al改为:from utils.annolist import AnnotationLib as al...原创 2019-09-03 11:51:22 · 1841 阅读 · 0 评论 -
Online Multi-Target Tracking Using Recurrent Neural Networks论文翻译
论文:https://arxiv.org/pdf/1604.03635.pdf代码(Lua+Torch 7):https://bitbucket.org/amilan/rnntrackingOnline Multi-Target Tracking Using Recurrent Neural Networks利用递归神经网络进行在线多目标跟踪Anton Milan, S. ...翻译 2019-08-31 20:53:55 · 1204 阅读 · 1 评论 -
深度度量学习 (metric learning deep metric learning )度量函数总结
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-31 15:05:53 · 5156 阅读 · 0 评论 -
SSD的详细且全面易懂的解释!
深度学习笔记(七)SSD 论文阅读笔记简化目录一. 算法概述 二. Default box 三. 正负样本 四. 网络结构 五.使用注意注:自己定义prior_box 参数设置参考:https://blog.youkuaiyun.com/rainforestgreen/article/details/82762274回到顶部一. 算法概述本文提出的SSD算法是一种...转载 2019-08-30 17:10:36 · 1521 阅读 · 0 评论 -
怎么理解VGG-16结构图中的block
VGG-16 结构图:如图所示,VGG16共有5层卷积层,两层全连接层,一层分类器:conv1_1, conv1_2conv2_1, conv2_2conv3_1, conv3_2, conv3_3conv4_1, conv4_2, conv4_3conv5_1, conv5_2, conv5_3FC1FC2softmax(1) conv1 中有2个bl...原创 2019-08-30 17:02:02 · 2823 阅读 · 0 评论 -
【论文翻译】Detection and Tracking of Occluded People
论文:http://fcv2011.ulsan.ac.kr/files/announcement/443/Detection%20and%20Tracking%20of%20Occluded%20People%20_IJCV2013.pdfDetection and Tracking of Occluded People遮挡人群的检测和跟踪写在前面:这篇论文是End-to-en...翻译 2019-09-04 12:46:15 · 527 阅读 · 0 评论 -
【论文翻译】Attention in Convolutional LSTM for Gesture Recognition
论文:http://papers.nips.cc/paper/7465-attention-in-convolutional-lstm-for-gesture-recognition.pdfCode:https://github.com/GuangmingZhu/AttentionConvLSTM(NIPS 2018) Attention in Convolutional LSTM ...翻译 2019-09-04 18:27:09 · 4162 阅读 · 0 评论 -
【论文翻译】Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting
论文:https://arxiv.org/pdf/1506.04214.pdf代码:(pytorch):https://github.com/automan000/Convolution_LSTM_pytorch(tensorflow):https://github.com/loliverhennigh/Convolutional-LSTM-in-Tensorflow笔记:http...翻译 2019-09-06 18:15:12 · 11472 阅读 · 4 评论 -
Precision、Recall、ROC、AUC、AP、mAP 解释
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-09-10 15:37:41 · 1401 阅读 · 0 评论 -
PyTorch 0.4新版本 升级指南 variable()
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-09-12 10:01:53 · 1038 阅读 · 0 评论 -
inception v1 结构图
原创 2019-09-30 09:31:09 · 693 阅读 · 0 评论 -
将全连接转为卷积层的原因,这篇听懂了!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-10-08 21:08:04 · 552 阅读 · 0 评论 -
【论文翻译】Mobile Video Object Detection with Temporally-Aware Feature Maps
写在前面来源: 谷歌,CVPR 2018文章链接:https://arxiv.org/abs/1711.06368v2最新研究 CVPR2019(在此基础上进一步提升速度):https://arxiv.org/abs/1903.10172我的翻译:https://blog.youkuaiyun.com/u014386899/article/details/102475750代码:ht...翻译 2019-10-09 17:31:50 · 1511 阅读 · 1 评论 -
人工智能会议等级列表
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-28 21:36:07 · 13671 阅读 · 0 评论