
机器学习
文章平均质量分 81
繁星知微
浙江大学信电学院博士生,主要研究三维视觉媒体表征、处理、编码,具有计算机视觉、三维重建、视频编码的技术背景。
个人主页:https://zhuzhiwei99.github.io/
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习】CNN与Transformer的表面区别与本质区别
CNN和Transformer是两种具有不同设计原理和适用场景的深度学习架构。CNN通过局部卷积和参数共享,高效地提取空间局部特征,适用于计算机视觉任务;Transformer借助自注意力机制,擅长捕捉全局依赖关系,适用于自然语言处理等序列建模任务。随着深度学习技术的不断发展,两种架构也在相互借鉴和融合,如在视觉任务中使用Transformer结构的 Vision Transformer(ViT),以及在语言模型中引入卷积操作以增强局部特征提取能力等,这进一步拓展了它们的应用范围和性能表现。原创 2025-02-19 09:38:35 · 1218 阅读 · 2 评论 -
Hugging face无法连接?一文教你玩转镜像站hf-mirror.com
域名 hf-mirror.com,用于镜像 huggingface.co 域名。作为一个公益项目,致力于帮助国内AI开发者快速、稳定的下载模型、数据集。本文教你快速学会用hf-mirror进行下载原创 2024-11-25 10:52:55 · 3742 阅读 · 0 评论 -
【论文精读】把一切转成mesh!MeshAnything和MeshAnythingV2论文解析
MeshAnything是一个自回归的transformer(autoregressive transformer),其将Mesh的每个面片视作token,整个Mesh被视作token序列,接着像大语言模型一样,**一个token一个token地生成**,最终生成出整个Mesh。原创 2024-10-21 16:54:36 · 1324 阅读 · 0 评论 -
【机器学习】VQ-VAE(Vector Quantized Variational Autoencoder)
总结来说,VQ-VAE是一种强大的生成模型,通过结合VAE的结构和向量量化机制,可以有效处理高维数据生成和重构的问题。原创 2024-10-21 16:31:33 · 2596 阅读 · 0 评论 -
【python】【全网首发】详细解释原因并解决pycharm选择ssh interpreter但运行程序报错No such file or directory的问题
习惯了windows可视化界面的码农们将pycharm视为python编程的一大神器IDE。要是能将本地代码和远程服务器代码进行同步,在本地修改代码实时同步到服务器上,再使用服务器的python interpreter和服务器计算资源跑程序,岂不爽哉。这不pycharm也确实有对应功能可以通过设置ssh interpreter + deployment的path mapping来实现上述功能。按着教程配置,有时候挺顺利,有时候却遇到No such file or directory的问题,查看deploym原创 2024-01-31 00:14:34 · 1515 阅读 · 1 评论 -
【计算机视觉】递归神经网络在图像超分的应用Deep Recursive Residual Network for Image Super Resolution
这篇文章是第一次将之前已有的递归神经网络(Recursive Neural Network)结构应用在图像超分辨率上。为了增加网络的感受野,提高网络性能,引入了深度递归神经网络,递归模块权重共享减少了模型所需参数量,但出现了梯度爆炸/消失问题,又研究出了递归监督和跳跃连接两个扩展办法。递归监督:把每次递归后的特征映射都用于重建目标高分辨率图像HR。由于每次递归都会导致不同的HR预测,因此作者将不同级别的递归产生的所有预测结合起来,以提供更准确的最终预测。每次递归的预测都受到GT监督。原创 2023-08-23 14:19:49 · 1090 阅读 · 0 评论 -
【论文精读】Subdivision-Based Mesh Convolution Networks
卷积神经网络( CNNs )在二维计算机视觉领域取得了巨大的突破。然而,其不规则的结构使得直接在网格上利用卷积神经网络的潜力变得困难。细分曲面提供了层次化的多分辨率结构,其中一个封闭的二维流形三角网格中的每个面恰好与三个面相邻。受这两点启发,本文提出了SubdivNet,这是一个具有创新性和通用性的用于具有Loop细分序列连通性的三维三角网格的CNN框架。将二维图像中的网格面和像素进行类比,我们可以提出一个网格卷积算子来聚合来自附近面的局部特征。原创 2022-12-19 21:26:38 · 1875 阅读 · 4 评论 -
【机器学习】KL-divergence(KL散度)的理解
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量。原创 2022-10-21 11:50:40 · 931 阅读 · 0 评论 -
【论文精读】Deep Marching Cubes: Learning Explicit Surface Representations
网络预测的On是伯努利分布的参数,pn(t)表示体素格占用的概率在立方格n的拓扑T的概率由8个格点的占用概率决定。原创 2022-10-20 22:19:42 · 1768 阅读 · 2 评论 -
【论文精读】Occupancy Networks: Learning 3D Reconstruction in Function Space
随着深度神经网络的出现,基于学习的3D重建方法得到了普及。然而,与图像不同,在3D中没有计算和内存有效的规范表示,且允许表示任意拓扑的高分辨率几何。因此,许多最先进的基于学习的3D重建方法只能表示非常粗糙的3D几何,或者仅限于有限的区域。在本文中,我们提出了一种新的基于学习的3D重建方法- -占位网络。。与现有方法不同的是,我们的表示编码了,而没有过多的内存占用。我们验证了我们的表示可以有效地编码3D结构,并且可以从各种输入中推断出来。原创 2022-10-20 17:01:01 · 1096 阅读 · 0 评论 -
【pytorch】tensor的维度索引,a[:,:,1]与a[:,1]的区别
【pytorch】tensor的维度索引,a[:,:,1]与a[:,1]的区别。原创 2022-10-17 09:50:31 · 889 阅读 · 0 评论 -
【3维视觉】mesh采样成sdf代码分析,sample_SDF_points
得到的faces的维度为:100,552x3,表示的就是有100552个面,每行代表组成这个面的三个顶点的索引。得到的mesh的维度是100,552x3x3,即每个面对应的3个点,每一个点对应的3个坐标值。得到的faces的维度为:301,656, 把每个面的三个点索引依次排放到list中。维度转换,将tensor转换3列的维度,(-1)表示转换后行的维度需要计算得到。比如有n个点,得到的attrib.vertices的维度就是3n。shape.mesh.indices的数据结构。shapes的数据结构。原创 2022-10-14 17:03:04 · 1386 阅读 · 3 评论 -
【机器学习】nglod的sdfRender复现指南(编译避坑 :[CMakeFiles/sdfRenderer.dir/build.make:187: sdfRenderer] Error 1)
nglod的sdfRender安装问题原创 2022-09-21 10:48:23 · 599 阅读 · 2 评论 -
【3维视觉】DCC-DIF复现,超详细避坑指南
DCC-DIF是2022CVPR的文章,全称是Learning Deep Implicit Functions for 3D Shapes with Dynamic Code Clouds[]。深层隐式函数(DIF)已成为有效的3D形状表示方法。为了捕获几何细节信息,当前方法通常使用局部潜在代码(latent code)学习DIF,该代码将空间离散和规则的3D网格(或八叉树),并将本地代码存储在网格点(或八叉树节点)中。给定查询点,通过将其相邻的局部代码与其位置插值来计算局部特征。原创 2022-09-11 21:35:41 · 1336 阅读 · 1 评论 -
【3维视觉】ShapeNet数据集介绍
ShapeNetCore 是 ShapeNet 的密集注释子集,涵盖 55 个常见对象类别,具有约 51,300 个独特的 3D 模型。ShapeNetCore中的每个模型都链接到 WordNet(版本 3.0)中的相应程序集。ShapeNetCore的文件组织结构是每个synset在一个 zip 文件中。每个 zip 文件都由 synset 名词偏移量命名为八位零填充字符串。用上述metadata的文件名替代下方URL中最后的README.txt。它是ShapeNet的一个子集,带有丰富的物理属性注释。原创 2022-09-11 15:42:47 · 16492 阅读 · 6 评论 -
【机器学习】【ubuntu】MinkowskiEngine 安装
MinkowskiEngine 是进行稀疏卷积(sparse conv)的库,下面来介绍如何安装github下载地址:https://github.com/NVIDIA/MinkowskiEngine里面的安装步骤虽然已经比较详细,但还是有些小坑这里以cuda10.2为例,首先确认服务器的cuda版本和cuda toolkit的版本都是10.2,否则参考这篇文章切换成正确的版本:服务器cuda toolkit多版本切换安装g+±7坑一:安装失败,和版本切换失败参考这篇文章:gcc/g++傻原创 2022-03-24 22:33:06 · 3941 阅读 · 11 评论 -
【深度学习】全连接网络
全连接神经网络(FullyConnectedNeturalNetwork,FCN)或者叫多层感知机(Multi-LayerPerception,MLP),是一种连接方式较为简单的人工神经网络结构,属于前馈神经网络的一种,只要有输入层、隐藏层和输出层构成,并且在每个隐藏层中可以有多个神经元。MLP网络是可以应用于几乎所有任务的多功能学习方法,包括分类、回归,甚至是无监督学习。本文主要介绍全连接网络的具体实现方法......原创 2022-07-25 19:51:33 · 8336 阅读 · 0 评论 -
【深度学习】自编码器
自编码器本质就是将高维数据投影成低维特征,编码器网络拟合着投影函数,解码器网络拟合着反投影函数。神经网络本质就是一个拟合函数。原创 2022-07-23 10:59:46 · 1784 阅读 · 0 评论 -
【深度学习】卷积神经网络
卷积神经网络基础知识原创 2022-07-22 16:37:48 · 532 阅读 · 0 评论 -
【linux】linux设置开机自动挂载
先挖个坑之后再填原创 2022-03-29 20:46:21 · 2334 阅读 · 0 评论 -
【机器学习】【ubuntu】服务器cuda toolkit多版本切换
其实通过update-alternatives可以实现的cuda版本切换1.查看版本查看cuda toolkit版本nvcc -V注意是大V查看显卡驱动版本和cuda版本注意cuda 版本和cuda toolkit版本不是一回事nvidia-smi2.下载并安装多版本的cuda toolkit地址:https://developer.nvidia.com/cuda-toolkit-archive进去如下图所示,以10.2为例我们选择好系统型号,以runfile为例,如原创 2022-03-24 21:57:25 · 2044 阅读 · 0 评论