- 博客(79)
- 资源 (14)
- 收藏
- 关注
原创 SadTalker 学习笔记
通过人脸图像和一段语音音频生成说话的头部视频仍然包含许多挑战。也就是说,不自然的头部运动、扭曲的表情和身份修改。我们认为,这些问题主要是因为oflearning从耦合的二维运动场。另一方面,明确地使用3D信息也遭受僵硬的表达和不连贯的视频的问题。我们提出了SadTalker,它产生的3D运动系数(头部姿势,表达)的3DMM从音频和隐式调制一个新的3D感知的面部渲染说话的头部生成。为了学习真实的运动系数,我们明确地建模音频和不同类型的运动系数之间的连接。
2023-05-29 12:47:34
1975
3
原创 Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis 笔记
动态nerf——DFRF笔记
2023-04-24 16:48:31
1330
原创 Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition学习笔记
Radnerf学习笔记;动态nerf;语音驱动数字人;
2023-04-13 16:42:15
761
3
原创 FreeNeRF Improving Few-shot Neural Rendering with Free Frequency Regularization
freenerf学习笔记
2023-04-04 15:04:44
1637
原创 NeuRay学习笔记
译文:提出了一种新的神经元表示方法,称为神经射线(NeuRay),用于新的视图合成任务。近年来的研究工作利用输入视图的图像特征构造辐射场来绘制新的视图图像,从而实现对新场景的泛化。然而,由于遮挡,3D点对于某些输入视图可能不可见。在这样的3D点上,这些泛化方法将包括来自不可见视图的不一致图像特征,这干扰辐射场构造。为了解决这个问题,我们预测了NeuRay表示中3D点对输入视图的可见性。这种可见性使得辐射场构造能够集中在可见图像特征上,这显著提高了其渲染质量。
2023-01-17 21:17:42
662
原创 MonoSDF学习笔记
主页:https://niujinshuchong.github.io/monosdf/论文:https://arxiv.org/pdf/2206.00665.pdfCode:https://github.com/autonomousvision/monosdf效果:我们使用通用预训练网络预测的单目几何线索来指导神经隐式曲面模型的优化。更具体地说,对于一批射线,我们将渲染预测的RGB颜色、深度和法线,并优化关于输入RGB图像和单眼几何线索。进一步,我们研究了神经隐式架构的不同设计选择,并提供了深入的分
2022-12-06 10:04:28
2406
原创 Numpy手撸neural network(三层MLP)
神经网络最主要的作用是作为提取特征的工具,最终的分类并不是作为主要核心。人工神经网络也称为多层感知机,相当于将输入数据通过前面多个全连接层网络将原输入特征进行了一个非线性变换,将变换后的特征拿到最后一层的分类器去分类。神经网络是由多个神经元组成的拓扑结构,由多个层排列组成,每一层又堆叠了多个神经元。通常包括输入层,N个隐藏层,和输出层组成。
2022-12-05 15:30:50
1364
原创 NeRF-SLAM 学习笔记
译文:提出了一种新的几何和光度3D mapping pipeline,用于从单目图像中精确和实时地重建场景。为了实现这一点,我们利用了密集单目SLAM和实时分层体积神经辐射场的最新进展。我们的见解是,密集单眼SLAM通过提供精确的姿势估计和具有相关不确定性的深度图,提供了正确的信息来实时拟合场景的神经辐射场。通过我们提出的基于不确定性的深度损失,我们不仅获得了良好的光度精度,而且获得了很高的几何精度。
2022-11-26 18:50:54
2322
原创 IDR 学习笔记
译文:在这项工作中,我们解决了多视图3D表面重建的挑战性问题。我们引入了一种神经网络体系结构,该体系结构同时学习未知的几何形状,相机参数以及神经渲染器,该神经渲染器近似从表面向相机反射的光。几何图形表示为神经网络的零级别集,而从渲染方程导出的神经渲染器能够 (隐式) 对各种照明条件和材料进行建模。我们在DTU MVS数据集中的具有不同材料特性,照明条件和嘈杂相机初始化的对象的真实2D图像上训练了我们的网络。我们发现我们的模型可以产生具有高保真度,分辨率和细节的最先进的3D表面重建。
2022-11-17 20:54:54
3137
原创 Numpy手撸softmax regression
Softmax 回归(或多项逻辑回归)是将逻辑回归推广到我们想要处理多个类的情况。 在逻辑回归中,我们假设标签是二元的:y(i)∈{0,1}y^{(i)} \in \{0,1\}y(i)∈{0,1},我们使用这样的分类器来区分两种手写数字。 Softmax 回归允许我们处理y(i)∈{0,1,...,C}y^{(i)} \in \{0,1,...,C\}y(i)∈{0,1,...,C}其中CCC是类的数量。
2022-11-09 12:40:00
1291
1
原创 tensorboard报错:TensorBoard could not bind to port 6006, it was already in use
训练深度学习时,打开TensorBoard发生报错:**`TensorBoard could not bind to port 6006, it was already in use ERROR: TensorBoard could not bind to port 6006, it was already in use`**;介绍如何解决该问题。
2022-11-08 16:46:55
3268
原创 GIRAFFE学习笔记
主页:https://m-niemeyer.github.io/project-pages/giraffe/index.html论文:https://www.cvlibs.net/publications/Niemeyer2021CVPR.pdf代码:https://github.com/autonomousvision/giraffe我们的主要想法是将合成 3D 场景表示合并到生成器模型中:更具体地说,在每个前向传递中,我们对场景中的对象以及背景中的各个潜在代码进行采样。这些为我们提供了规范空间中的
2022-11-06 13:43:03
764
原创 神经辐射场 (NeRF) 概念
NeRF模型以其基本形式将三维场景表示为由神经网络近似的辐射场。辐射场描述了场景中每个点和每个观看方向的颜色和体积密度。F(x,θ,φ)→(c,σ),(1)其中x=(x,y,z)是场景内坐标,(θ,φ)表示方位角和极视角,c=(r,g,b)表示颜色,σ表示体积密度。该5D函数由一个或多个多层预加速器 (MLP) 近似,有时表示为f Θ。两个视角(θ,φ)通常由d=(dx,dy,dz)
2022-11-05 15:17:53
3241
2
原创 Mega-Nerf学习笔记
译文:我们使用神经辐射场 (nerf) 从大规模的视觉捕获中构建交互式3D环境,这些捕获跨越建筑物,甚至是主要从无人机收集的多个城市街区。与单个对象场景 (传统上对nerf进行评估) 相反,我们的规模提出了多个挑战,包括 (1) 需要对具有不同照明条件的数千个图像进行建模,每个图像仅捕获场景的一小部分,(2) 令人望而却步的大模型容量,使其无法在单个GPU上进行训练,并且 (3) 快速渲染将实现交互式飞行的重大挑战。
2022-10-30 17:14:04
4821
4
原创 Neus学习笔记
主页:https://lingjie0206.github.io/papers/NeuS/论文:https://arxiv.org/abs/2106.10689代码:https://github.com/Totoro97/NeuS给定一组3D对象的摆姿势图像{Ik}\{I_k\}{Ik},我们的目标是重建其表面SSS。表面由神经隐式SDF的零级集表示。为了学习神经网络的权重,我们开发了一种新颖的体绘制方法,用于从隐式SDF渲染图像,并最小化渲染图像与输入图像之间的差异。这种体绘制方法可确保NeuS中的
2022-10-25 17:07:03
4748
原创 LOLNeRF笔记
译文:我们提出了一种基于神经辐射场学习生成 3D 模型的方法,该模型仅从具有每个对象的单个视图的数据中进行训练。虽然生成逼真的图像不再是一项艰巨的任务,但生成相应的 3D 结构以便它们可以从不同的视图进行渲染并非易事。我们表明,与现有方法不同,不需要多视图数据来实现这一目标。具体来说,我们表明,通过使用以共享潜在空间为条件的单个网络重建许多与近似规范姿势对齐的图像,您可以学习一个辐射场空间,该空间对一类对象的形状和外观进行建模。
2022-10-11 18:33:59
1292
3
原创 纯numpy实现线性回归
该博客记录了一个基于numpy实现线性回归的例子。与sklearn不同,numpy实现的多为梯度下降方式优化模型性能。以下为代码部分:定义RMSE,loss,r2函数,定义回归模型,标准化,可视化等。
2022-10-06 10:08:13
1855
原创 来自 Visual Studio Code 的 Git 推送:“remote: No anonymous write access.“ 解决方案
当本地或服务器上vs code提交仓库时发生**remote: No anonymous write access.**报错。即报错信息如下:fatal: ‘https://github.com/xxx/xxx.git/’ 鉴权失败。 解决方法可以通过确定git身份和密钥、或者生成个人令牌(personal access tokens)解决。
2022-09-28 10:12:27
2541
原创 Pytorch与tensorboard观察Loss变化
在使用pytorch框架训练时,如何利用tensorboard记录并查看loss等变量的变化
2022-09-14 14:58:35
907
原创 基于numpy实现层次聚类并可视化
import numpy as npfrom scipy.cluster.hierarchy import dendrogramimport matplotlib.pyplot as pltindex_m0,index_m1 = 0,0lk = []Y = np.array([1,4,9,16,25,36,49,64,81])mod = Y.copy()Mean = Y.mean()Y = Y - MeanY = abs(Y)dic = {}for i in Y: dic[i
2022-05-11 10:25:28
4866
原创 RuntimeError: Can‘t call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.
解决python报错:RuntimeError: Can't call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.
2022-04-28 14:57:21
61505
3
原创 PyTorch实现多项式拟合
利用梯度下降的方法对原函数继续拟合import torchimport mathimport matplotlib.pyplot as pltclass Fitting_polynomial(torch.nn.Module): def __init__(self): super(Fitting_polynomial,self).__init__() self.a = torch.nn.Parameter(torch.randn(())) s
2022-04-27 18:08:35
6166
原创 基于Pytorch的Fashion mnist实战
import torchfrom torchvision import datasets, transformsimport timeimport numpy as npimport matplotlib.pyplot as plt from PIL import Image# Define a transform to normalize the datatransform = transforms.Compose([transforms.ToTensor(),
2022-04-26 20:04:52
4817
python 数据挖掘 predicting_the_success_of_a_restaurant
2021-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人