- 博客(29)
- 收藏
- 关注
原创 论文略读(2025.3.18-更新中)
pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。输入一段video,通过给定新的相机轨迹,输出新相机下的video。
2025-03-18 13:39:56
335
原创 chmod用法
是 Linux/Unix 系统中用于更改文件或目录权限的命令,它通过设置不同的权限位来控制文件的访问权限。选择合适的权限值需要根据具体的使用场景和安全性需求来决定。始终遵循“最小权限原则”,确保系统的安全性。的具体值取决于文件的用途和安全性要求。是一个合理的默认值;对于可执行文件或目录,
2025-03-14 17:52:35
517
原创 机器人基础知识
逆动力学就是解决这个问题的方法。:与逆动力学相反,正向动力学则是当你知道作用在机器人上的力(例如电机提供的扭矩)时,预测机器人将会如何移动的过程。也就是说,给定机器人的当前状态(如位置和速度)以及施加于其上的力,正向动力学能够告诉我们接下来会发生什么,机器人将怎样改变它的位置或速度。在机器人学中,“inverse dynamics”(逆动力学)和 “forward dynamics”(正向动力学)是两个核心概念,它们帮助我们理解和计算机器人如何移动以及需要应用什么样的力来实现这些移动。
2025-03-12 12:04:12
290
原创 CLIP代码相关问题
首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。
2025-01-10 18:45:17
288
原创 【AniGS】论文阅读
微调阶段:用公共合成3D数据集的组合来渲染多视图图像。数据集包括2K2K,Thuman2.0,Thuman2.1和CustomHumans,以及Thwindom和RenderPeople等商业数据集。值得注意的是,没有使用人体模型进行训练。对于setting3:使用Blender获取GTvideo,并导出运动序列来驱动创建的人体模型。然后,我们在前景区域中计算photometric metrics来评估在animation上的性能。预训练阶段:为训练多视图生成模型,使用动态人体视频数据集。
2025-01-08 16:20:07
984
1
原创 相机内外参知识
组成,它们一起描述了从世界坐标系到相机坐标系的转换。如果要计算相机原点在世界坐标系中的位置,则需要考虑这个变换的逆变换,即从相机坐标系到世界坐标系的变换。如果文档或代码中没有明确指出,那么默认情况下外参数矩阵指的通常是 world2cam 变换。已知相机的内外参数矩阵,可以求得相机在世界坐标系下的原点坐标。来得到它在世界坐标系中的坐标,因为旋转矩阵的转置等于它的逆(在相机坐标系中是原点,所以我们可以简单地使用负的平移向量。这就是相机原点在世界坐标系下的坐标。,其在相机坐标系中的坐标是。,我们需要做逆变换。
2024-12-20 14:25:12
1285
原创 GauHuman阅读笔记【3D Human Modelling】
针对1: LBS将3DGS从canonical space变换到posed space,使用MLP做LBS Weight Field来预测LBS weight offset进一步增强性能,使用MLP做Pose的refinement进一步增强准确性。用KL散度作为3D高斯之间距离的度量,从而比3DGS原文更好地进行分裂和克隆过程。另外进行3D高斯的合并和剪枝,减少数量。提出了一个基于高斯平滑表示的3D人体模型GauHuman,用于3D人体的快速训练(1~2分钟)和实时渲染(189FPS )。
2024-12-09 00:46:32
1087
原创 前向映射和后向映射,在渲染中的含义
前向映射的输入是源图像及其映射规则,输出是经过变换后得到的目标图像,但可能会有未填充的区域或者重复覆盖的区域。反向映射的输入是目标图像坐标及逆映射规则,输出同样是一个目标图像,但是它是通过对每个目标像素进行精确计算而获得的,保证了图像的完整性和准确性。这两种方法的选择取决于具体应用的需求以及对结果质量的要求。例如,在计算机图形学中,反向映射因其能够更好地处理变形和扭曲等问题而更为常用。NeRF和。
2024-12-08 19:39:28
474
原创 JourneyDB数据集简介
数据集有什么:包括4,429,295 张高分辨率的 Midjourney 图像,并附有相应的prompt、caption和visual question answering。: 模型的任务是根据风格属性识别和检索相似的生成图像。该任务评估模型在识别生成图像中微妙的风格细微差别方面的熟练程度。该任务评估模型使用自然语言有效理解和表达生成内容的视觉元素的能力。此任务评估模型理解视觉和风格内容并根据所提供的问题提供相关响应的能力。此任务用于破译原始提示或描述,评估模型理解生成图像的内容和风格的能力。
2024-02-05 16:47:02
1071
原创 图像质量评价指标记录(PSNR,LPIPS,SSIM,MS-SSIM)
【代码】图像质量评价指标记录(PSNR,LPIPS,SSIM,MS-SSIM)
2024-01-04 16:36:09
1349
原创 谷歌Gemini的API使用记录
Gemini目前提供2个模型:Gemini-pro和Gemini-pro-vision,一个是text2text,一个是vision2text。打印模型名称。
2023-12-25 17:11:22
907
原创 pycharm远程debug总跳转remote_sources解决办法
解决pycharm远程debug总跳转remote sources里的办法
2023-11-17 15:18:52
1123
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人